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本 书 系统 介绍 涉及 并 行 计算 的 体系 结构 、 编 程 范例 、 算 法 与 应 用 和 标准 等 。 履 盖 了 并 行 
计算 领域 的 传统 问题 ， 并 且 尽 可 能 地 采用 与 底层 平台 无 关 的 体系 结构 和 针对 抽象 模型 来 设计 
算法 ， 书 中 选择 MPI (Message Passing Interface)、POSIX 线 程 和 OpenMP 这 三 个 应 用 最 广 
泛 的 编写 可 移植 并 行程 序 的 标准 作为 编程 模型 ， 并 在 不 同 例子 中 反映 了 并 行 计算 的 不 断 变 化 
的 应 用 组 合 。 本 书 结构 合理 ， 可 读 性 强 ， 加 之 每 章 精心 设计 的 习题 集 ; 更 加 适合 教学 。 

本 书 原版 自 1993 年 出 版 第 1 版 到 2003 年 出 版 第 2 版 以 来 , 已 在 世界 范围 内 被 广泛 地 采用 为 
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普度 大 学 计算 机 科学 系 的 副教授 ， 研 究 领 域 是 并 行 和 分 布 式 系统 和 
应 用 的 不 同方 面 。 

IBM T.J. Watson Research Center 的 研究 人 员 ， 研 究 领 域 是 并 行 算 
法 和 科学 计算 。 

er hd 
设计 、 数 据 挖 掘 和 生物 信息 学 等 

明尼苏达 大 学 计算 机 科学 与 工程 系 的 教授 ， 美 国 军 用 高 性 能 计算 研 
究 中 心 的 主任 ， 研 究 领域 是 高 性 能 计算 、 用 于 科学 计算 问题 和 数据 
挖掘 的 并 行 算法 。 
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本 书 全 面 介绍 并 行 计算 的 各 个 方面 ， 包 括 体系 结构 、 编 程 范 型 、 算 法 和 标 惟 等 ， 涉 
及 并 行 计 算 中 的 新 技术 ， 也 覆盖 了 较 传 统 的 算法 ， 如 排序 、 搜 索 、 图 和 动态 编程 等 。 本 
书 尽 可 能 采用 与 底层 平台 无 关 的 体系 结构 并 且 针 对 抽象 模型 来 设计 算法 。 书 中 选择 MPI、 
POSIX 线 程 和 OpenMP 作 为 编程 模型 ， 并 在 不 同 例子 中 反映 了 并 行 计算 的 不 断 变 化 的 应 
用 组 合 。 

本 书 论述 清晰 ， 示 例 生动 ， 并 附 有 大 量 习 题 。 适 合作 为 高 等 院 校 计算 机 及 相关 专业 
本 科 生 和 研究 生 的 教材 或 参考 书 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 辟 
划 了 研究 的 范畴 ， 还 揭 理 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 | 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 " 。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall ，Addison-Wesley ，McGraw-Hill，Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 村 选 出 Tanenbaum ，Stroustrup ， 开 ernighan ， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 上 度 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 里 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 人 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines ”系列 组 成 
“全 美 经 典 学 习 指 导 系 列 "。 为 了 保证 这 三 套 丛 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科 技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工 业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工 学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 ”， 为 我 们 提供 选 题 意 见 和 出 版 监督 。 

这 三 套 丛 书 是 啊 应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.，Stanford ，U.C. Berkeley ，C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫 典 中 由 登 堂 而 人 室 。 四 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 ，hzedu@hzbook.com 

联系 电话 : (010 ) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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中 文 版 序 


我 很 高 兴 《 并 行 计算 导论 》 一 书 终于 有 了 它 的 中 文 译本 。 在 此 ， 恭 贺 并 感谢 上 海 大 学 计 
算 机 学 院 张 武 教授 承担 了 这 项 巨大 的 工程 ， 以 将 此 书 呈献 给 了 广大 的 中 国 读者 。 

并 行 计算 是 一 个 充满 活力 的 领域 ， 经 过 几 十 年 的 发 展 ， 这 一 领域 的 研究 成 果 已 在 科学 与 
技术 的 众多 领域 随处 可 见 。 现 在 ， 超 级 并 行 计 算 机 在 大 规模 科学 与 工程 计算 、 电 子 商 务 、 网 
络 搜 索 、 数 据 挖 所 等 领域 都 得 到 了 广泛 的 应 用 。 同 时 ， 利 用 现 有 的 软 硬 件 和 网 络 技 术 制 造 机 
群 式 超 级 计算 机 也 已 变 得 越 来 越 方便 。 此 外 ， 所 有 的 超级 计算 机 供应 商都 可 为 客户 提供 专用 
的 超级 并 行 计算 机 。 重 要 的 问题 是 如 何 充 分 利用 这 些 超 级 并 行 计算 机 ， 这 需要 发 展 有 效 的 并 
行 算法 和 以 适当 的 程序 范例 实施 这 些 算法 ， 这 就 是 本 书 所 讨论 的 重点 。 

我 囊 心 希望 本 书 能 为 读者 在 学 习 和 应 用 并 行 计算 这 一 重要 的 和 不 断 发 民 关 的 最 新 技术 的 

过 程 中 提供 有 益 的 帮助 。 


: Vipin Kumar 
美国 明尼苏达 大 学 计算 机 科学 与 工程 系 教 搜 
美国 陆军 高 性 能 计算 研究 中 心 主任 

Email: kumar@cs.umn.edu 

URL.: http://www.cs umn.edu/~kumar 





译 者 序 


当代 科学 、 技 术 和 社会 经 济 的 发 展 对 大 规模 科学 与 工程 计算 的 需求 是 无 止境 的 ， 诸 如 核 
反应 模拟 、 数 值 天 气 预报 、 基 因 工 程 、 城 市 交通 、 电 子 商务 和 网 络 搜 索 等 问题 都 对 计算 提出 
了 巨大 的 挑战 。 随 着 超级 并 行 计 算 机 的 飞速 发 展 ， 尤 其 是 机 群 式 超 级 计算 机 提供 越 来 越 方 便 
的 并 行 计算 资 源 ， 如 何 充 分 利用 这 些 并 行 计 算 机 资源 ， 已 对 并 行 计算 及 其 应 用 构成 严峻 的 考 
验 。 

《并 行 计算 导论 》 的 作者 Vipin Kumar 教授 等 是 国际 知名 的 并 行 计 算 专 家 ， 他 们 在 并 行 
法 设计 与 分 析 、 并 行 计算 应 用 等 方面 有 很 深 的 造 诺 。 自 本 书 第 1 版 1994 年 出 版 到 2003 年 出 版 第 
2 版 以 来 , 已 在 世界 范围 内 被 广泛 地 采用 为 高 等 院 校本 科 生 和 研究 生 的 并 行 计算 教材 或 参考 书 。 
本 书 系统 介绍 涉及 并 行 计算 的 体系 结构 、 编 程 范 例 、 算 法 与 应 用 和 标准 等 。 本 书 结构 合理 ， 
可 读 性 强 ， 加 之 每 章 精心 设计 的 习题 集 ， 形 成 了 本 书 的 主要 特色 。 相 信 本 书 对 培养 国内 急需 
的 并 行 计 算 人 才 和 推动 并 行 计 算 课 程 建设 与 改革 必 将 发 挥 积极 的 作用 。 

本 书 的 前 言 、 第 1、8、9、13 章 由 张 武 翻译 ， 第 2、10、11、12 章 由 毛 国 勇 翻 译 ， 第 6、7 
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前 证 


自 1994 年 本 书 第 1 版 问世 以 来 ， 并 行 计 算 领 域 发 生 了 巨大 的 变化 。 十 多 年 前 ， 紧 而 合 可 扩 
展 的 信息 传递 平台 是 并 行 计算 的 主流 模式 ， 而 今 ， 主 导 地 位 则 由 大 量 成 本 较 低 的 工作 站 、 多 
处 理 机 工作 站 以 及 服务 器 构成 的 机 群 式 计 算 平 台所 占据 。 在 此 期 间 ， 这 些 平台 的 程序 设计 模 
型 也 得 以 发 展 。 尽 管 十 多 年 前 绝 大 部 分 的 机 器 还 依赖 于 特定 的 应 用 程序 编程 接口 (API) 来 实 
现 信息 交换 与 基于 循环 的 并 行 ， 而 现在 的 模型 已 在 不 同 平台 上 将 API 标 准 化 。 一 些 程序 设计 模 
型 已 被 接受 为 标准 ， 比 如 消息 传递 库 PVM 和 MPI、 POSIX 线 程 库 、 基于 指令 的 OpenMP 等 ， 并 
饿 移植 到 多 种 平台 上 。 

十 年 前 ， 流 体力 学 、 结 构 力 学 和 信号 处 理 等 是 并 行 计算 应 用 的 主要 领域 ， 并 且 这 些 应 用 
仍 对 当前 并 行 计算 平台 构成 挑战 。 但 是 ， 今 天 许多 新 的 应 用 也 正 变 得 越 来 越 重要 ， 其 中 包括 
事务 处 理 、 信 息 检 索 、 数 据 挖 据 与 分 析 和 多 媒体 服务 等 数据 密集 型 应 用 。 新 兴 应 用 领域 ， 如 
计算 生物 学 与 纳米 技术 ， 对 并 行 算法 和 系统 开发 也 提出 了 巨大 的 挑战 。 在 并 行 体系 结构 、 程 
序 设计 模型 与 应 用 上 的 变化 ， 也 伴随 大和 如何 使 用 户 以 芝 于 网 格 服务 的 形式 利用 并 行 了 计算 平台 
方面 的 改变 。 

以 上 发 展 对 并 行 算法 的 设计 、 分 析 与 实现 过 程 产生 了 深刻 的 影响 十 年 前 ， 并 行 算法 设 
计 主要 强调 的 是 如 何 将 任务 精确 地 映射 到 如 格 网 和 超 立方 体 这 样 的 特定 拓扑 结构 上 ， 而 今天 
却 是 从 算法 设计 与 实现 的 角度 来 强调 可 编程 性 与 可 移植 性 。 为 此 、 本 书 尽 可 能 采用 与 底层 平 
台 无 关 的 体系 结构 ， 并 针对 抽象 模型 来 设计 算法 。 关 于 程序 设计 模型 ， 本 书 选 择 消 息 传递 接 
口 (Message-Passing Interface, MPI) 、POISX 线 程 和 OpenMP。 对 于 涉及 并 行 计 算 的 应 用 组 合 ， 
也 反映 在 本 书 的 各 种 例子 中 。 

本 书 构成 一 门 专注 于 并 行 计 算 的 课程 的 基础 ， 也 可 分 为 两 部 分 讲授 。 以 下 是 对 按 两 部 分 
Wii 

并 行 计算 导论 : 第 1 ~ 6 章 。 这 个 课程 提供 并 行 算法 设计 和 并 行 编程 的 基础 。 
2 并 行 算法 设计 与 分 析 : 第 2、 3 章 以 及 第 8 ~ 12 章 。 这 个 课程 对 各 种 并 行 算法 的 设计 与 
分 析 进 行 深 入 的 探讨 。 . 

本 书 材 料 曾 在 明尼苏达 大 学 和 普度 大 学 的 并 行 算法 与 并 行 计 算 课程 中 试用 过 。 这 些 课程 
是 为 计算 机 科学 专业 低 年 级 研究 生 与 高 年 级 本 科 生 开设 的 。 另 外 ， 对 学 习 计 算 密集 型 问题 的 
科学 与 工程 专业 的 研究 生 ， 在 他 们 选修 的 与 科学 计算 相关 的 课程 中 也 试用 过 这 些 材料 。 

本 书 多 数 章 包括 : 1) 例子 与 图 解 ; 2) 教材 的 补充 习题 ， 用 于 测试 学 生 对 所 学 内 容 的 理 
解 程度 ; 3) 书目 评注 ， 用 于 帮助 有 兴趣 的 学 生 和 研究 人 员 了 解 相 关 的 和 更 高 级 的 课题 。 本 书 
的 索引 帮助 读者 快速 查找 到 感 兴趣 的 术语 。 术 语 所 在 的 页 号 使 用 黑体 排 印 。 内 容 相 对 比较 复 
杂 有 的 厂 上 加 了 “*” 号 。 此 外 ， 从 出 版 商 (http:/www.booksites.net/kumar) 那里 可 以 获得 更 多 
支持 信息 。 

与 本 书 前 一 版 一 样 ， 我 们 认为 本 书 也 在 不 断 发 展 之 中 。 要 感谢 那些 对 我 们 第 1 版 书 提出 批 


六 原 英 文 版 的 “参考 文献 ”部 分 的 电子 文件 现 放 在 http://www.hzbook.com 上 。 有 需要 的 读者 请 到 网 站 上 下 载 。 





评 、 建 议 、 问 题 和 提供 代码 或 者 其 他 信息 的 读者 ， 并 真诚 地 希望 围绕 着 这 本 新 版 书 ， 我 们 之 
间 还 能 继续 这 种 交流 。 我 们 鼓励 读者 通过 电子 邮件 book-vk@cs.umn.edu 与 我 们 交流 。 所 有 相 
关 的 读者 反馈 将 在 征 得 同音 后 加 到 http://www.cs.umn.edu/~parbook 下 的 归档 信息 中 。 该 网 站 
还 维护 着 本 书 的 在 线 勘 误 表 。 我 们 相信 ， 在 像 并 行 计算 这 个 高 度 动态 变化 的 领域 ， 以 这 种 健 
全 的 方式 进行 思想 和 资料 的 交流 将 使 我 们 受益 良 多 。 
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第 1 章 并行 计算 介绍 


在 过 去 的 十 年 里 ， 微 处 理 器 技术 有 了 巨大 的 发 展 。 处 理 器 的 时 钟 频率 从 大 约 40 MHz ( 例 
如 ，1988 年 前 后 的 MIPS R3000) 增加 到 超过 2 GHz (例如 ，2002 年 前 后 的 奔腾 IV )。 同 时 ， 处 
理 吏 现在 能 够 在 同一 周期 里 执行 多 条 指令 。 高 端 处 理 器 的 平均 指令 周期 数 (CPI) 在 过 去 的 十 
年 里 提高 了 大 约 一 个 数量 级 。 所 有 这 一 切 导 致 峰值 浮 点 运算 执行 速度 〈( 浮 点 运算 次 数 每 秒 或 
FLOPS ) 增加 了 几 个 数量 级 。 除 此 之 外 ， 同 一 时 期 计算 机 在 其 他 方面 也 取得 了 重要 的 进展 ， 
其 中 最 重要 的 进展 可 能 要 算 内 存 系 统 向 处 理 器 提供 数据 速度 的 提高 。 计 算 机 硬件 和 软件 方面 
的 重大 音 新 有 效 地 缓解 了 由 数据 通道 和 内 存 导 致 的 瓶颈 。 

人 们 认识 并 发 性 对 于 加 速 计算 单元 的 作用 已 经 几 十 年 了 。 然 而 ， 它 们 在 提供 多 样 性 的 数 
据 遂 道 、 日 益 增 加 的 存储 单元 (包括 内 存 和 外 存 ) 访问 、 可 扩展 性 能 以 及 较 低 成 本 方面 的 作 
用 ， 只 反映 在 并 行 计 算 的 各 种 应 用 中 。 以 2 个 、4 个 甚至 8 个 处 理 器 连接 在 一 起 的 桌面 计算 机 、 
工程 用 工作 站 以 及 计算 服务 器 正成 为 通用 的 设计 应 用 和 平台。 大 规模 科学 与 工程 计算 要 依靠 更 
多 处 理 器 的 并 行 计算 机 ， 其 处 理 器 数量 通常 达到 几 百 台 。 像 数据 库 或 网 络 服务 器 这 样 的 数据 
密集 型 平台 ， 或 者 像 事务 处 理 及 数据 挖掘 这 样 的 应 用 ， 通 常 使 用 提供 高 聚合 磁盘 带宽 的 工作 
站 机 群 。 图 形 图 像 方面 的 应 用 往往 用 多 个 演 染 管道 和 多 个 处 理 单 元 来 计算 及 实时 地 泻 染 由 几 
百 万 个 多 边 形 构成 的 现实 场景 。 一 些 要 求 高 可 用 性 的 应 用 程序 要 依靠 并 行 或 分 布 式 平台 提供 
元 余 。 因 此 ， 无 论 从 性 能 、 价 格 还 是 应 用 程序 的 需求 来 看 ， 理 解 目 前 可 用 的 各 种 各 样 并 行 计 
算 平台 的 机 理 、 工 具 以 及 编程 技术 ， 都 是 非常 重要 的 。 

1.1 推动 并 行 化 

并 行 软件 的 设计 一 直 被 认为 要 耗费 大 量 的 时 间 和 精力 ， 这 可 能 主要 由 于 说 明和 协调 并 行 
任务 固有 的 复杂 性 、 缺 少 可 移植 的 算法 、 标 准 化 的 环境 和 软件 开发 工具 包 。 当 看 到 微 处 理 器 
的 快速 发 展 时 ， 人 们 不 禁 对 花 大 力气 研究 并 行 化 来 加 速 应 用 程序 的 必要 性 产生 怀疑 。 毕 竟 ， 
如 采花 两 年 时 间 去 开发 一 个 并 行程 序 ， 而 在 这 段 时 间 里 硬件 或 软件 平台 已 变 得 过 时 ， 显 然 这 
两 年 的 开发 就 白费 了 。 然 而， 硬件 设计 方面 的 某 些 明 显 趋势 表明 ， 单 一 处 理 器 (或 隐 式 并 行 ) 
体系 结构 不 能 保证 未 来 提升 性 能 的 速度 ， 因 为 缺少 隐 式 并 行 化 以 及 存在 数据 通道 及 内 存 方面 
的 其 他 瓶 贷 。 同 时 ， 标 淮 化 的 硬件 接口 减少 了 从 设计 微 处 理 器 到 设计 基于 微 处 理 器 并 行 计算 
机 的 过 渡 时 间 。 此 外 ， 在 编程 环境 标准 化 方面 取得 的 可 观 进展 增加 了 并 行 应 用 程序 的 寿命 。 
所 有 这 一 切 都 为 发 展 并 行 计算 平台 提供 了 有 力 的 支持 。 


1.1.1 计算 能 力 因 素 一 一 从 晶体 管 到 浮 点 运算 速度 


1965 年 ， 戈 登 - 摩尔 提出 如 下 的 观察 结果 : 
“半导体 上 的 晶体 管 数 量 大 约 每 年 增长 了 一 倍 。 在 短 时 间 内 这 个 增长 速度 可 望 保 持 下 上 去。 
虽然 没有 理由 相信 在 至 少 10 年 的 时 间 内 增长 速度 不 能 继续 稳定 ， 但 对 较 长 时 间 而 言 ， 多 少 难 





2 条/! 草 


以 确定 其 增长 速度 。 也 就 是 说 ， 到 1975 年 ， 每 块 集成 电路 上 的 晶体 管 数 将 达到 65 000 个 。 

他 的 推理 是 根据 观察 基于 元 件 复杂 度 和 时 间 之 间 的 对 数 -线性 经 验 关 系 中 的 三 个 数据 点 得 
到 的 。 他 由 此 证 明 ， 到 1975 年 ， 在 只 有 四 分 之 一 平方 英寸 的 单一 芯片 上 含有 65 000 个 晶体 管 
是 可 能 的 。 当 1975 年 拥有 65 000 个 晶体 管 的 16K CCD 存 储 器 制造 出 来 后 ， 他 的 预测 被 证 明 是 
a 他 仕 1975 年 接 下 来 的 文章 里 ， 把 对 数 - 线 性 关系 改 成 了 芯片 尺寸 、 晶 体 管 最 小 尺寸 以 

“电路 与 元 件 合理 排列 ”之 间 的 指数 关系 。 接 下 来 他 写 道 : 

-空间 太 少 挤 不 进 任何 东西 ， 除 非 布局 更 加 人 合理化， 我们 只 能 依靠 两 个 尺寸 方面 的 因 
素 一 一 更 大 的 臣 片 及 更 小 的 晶体 管 。” 

他 把 元 件数 量 每 增长 一 一 倍 的 时 间 修改 为 18 个 月 并 预测 从 1975 年 起 按 这 个 降低 后 后 的 速度 增 
长 。 这 就 是 著名 的 “摩尔 定律 *， 也 就 是 芯片 的 晶体 管 数量 每 18 个 月 增长 一 倍 。 许 多 年 以 来 ， 
这 条 经 验 定 律令 人 惊奇 地 在 微 处 理 器 及 动态 随机 存 取 存 储 器 上 反复 地 得 到 验证 。 通 过 将 元 件 
密度 及 芯片 大 小 与 计算 能 力 相 联系 ， 摩 尔 定律 推断 出 给 定价 格 下 计算 能 力 每 隔 大 约 18 个 月 翻 
一 符 。 

在 过 去 几 年 里 ， 摩 尔 定律 的 局 限 性 受到 了 广泛 的 争议 。 避 开 争 议 不 谈 ， 把 晶体 管 数 量 转 
换 成 每 秒 运算 次 数 (Operations Per Second, OPS) 是 至 关 重 要 的 。 虽 然 制造 拥有 巨大 晶体 管 
数量 的 元 件 已 经 成 为 可 能 ， 但 如 何 利用 这 些 晶 体 管 以 提高 运算 能 力 是 对 体 蒜 结构 的 挑战 。 一 


个 合理 的 解决 方案 就 是 依 车 并 行 化 一 隐 式 及 显 式 并 行 。2.1 节 将 简单 地 讨论 隐 式 并 行 ， 本 书 


的 其 他 部 分 都 将 探讨 显 式 并 行 
1.1.2 内 存 及 磁盘 速度 的 因素 


总 体 计算 速度 并 非 仅 仅 由 处 理 器 一 个 因素 所 决定 ， 它 也 取决 于 内 存 系统 向 处 理 器 提供 数 
据 的 能 力 。 在 过 去 的 十 年 里 ， 当 高 端 处 理 器 的 时 钟 速度 大 约 以 每 年 40% 速 度 增长 的 同时 ， 此 
期 间 动态 随机 存 取 存 储 器 (DRAM ) 访问 速度 的 年 增长 率 仅 为 10% 左 右 。 伴 随 每 个 时 钟 周期 
处 理 指令 数量 的 增加 ， 处 理 器 速度 与 访问 内 存 之 间 的 差异 带 来 了 巨大 的 性 能 瓶颈 。 这 种 处 理 
器 速度 和 动态 随机 存 取 存 储 器 延迟 之 间 越 来 越 大 的 差距 通常 通过 一 种 称 为 高 速 缓存 的 快速 存 
储 器 来 弥补 ， 它 依靠 数据 访问 的 局 部 性 来 提升 内 存 系统 的 性 能 。 除 了 延迟 时 间 外 ， 处 理 器 与 
动态 随机 存 取 存储 器 间 的 净 有 效 带 宽 也 对 持续 计算 速度 产生 影响 。 

内 存 系统 的 总 体 性 能 是 由 高 速 缓存 能 够 满足 总 内 存 需求 的 部 分 所 决定 的 。 在 2.2 轩 对 内 在 
系统 的 性 能 做 更 详细 的 介绍 。 并 行 平台 通常 能 提供 更 好 的 内 存 系统 性 能 ， 因 为 它 能 提供 (1) 
更 大 的 集合 高 速 缓存 ，(2) 更 高 的 内 存 系统 的 集合 带宽 (两 者 通常 与 处 理 器 个 数 都 是 线性 关 
系 )。 此 外 ， 并 行 算法 的 核心 原则 ， 即 数据 访问 的 局 部 性 原则 ， 也 适用 于 便利 高 速 缓存 实现 的 
串 行 算法 。 这 个 论点 可 推广 到 用 并 行 平台 能 对 二 级 存储 达到 高 集合 带宽 的 磁盘 。 由 此 ， 并 行 
算法 产生 发 展 非 核 心计 算 的 见解 。 事 实 上 ， 在 一 些 发 展 最 快 的 并 行 计算 应 用 领域 ， 如 数据 服 
务 器 (数据 库 服务 器 ， 网 络 服 务 器 )， 已 经 不 再 过 多 地 依靠 它们 的 聚合 计算 能 力 ， 而 更 多 的 是 
依靠 它们 更 快 取出 数据 的 能 力 。 : 


1.1.3 数据 通信 因素 
随 厦 网 络 基础 设施 的 不 断 发 展 ， 将 因特网 作为 一 个 巨大 的 异 构 并 行 /分 布 式 计算 环境 的 构 
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想 开 始 形 成 。 许 多 应 用 很 自然 地 采用 了 这 种 计算 形式 ,一些 大 规模 并 行 计算 最 令 人 关注 的 应 
用 就 属于 这 种 广域网 分 布 式 平台 范畴 。 外 星 智能 探索 (SETI) 项 目 就 使 用 许多 家 用 计算 机 来 
分 析 来 自 外 层 空 间 的 电磁 信号 ， 人 们 也 尝试 用 这 种 方法 对 极 大 的 整数 进行 因 式 分 解 和 求解 大 
规模 的 离散 优化 问题 。 

在 许多 应 用 程序 中 ， 因 特 网 上 的 数据 或 资源 的 位 置 是 有 约束 的 ， 对 分 布 在 相对 低 带 宽 网 
络 上 的 大 型 商业 数据 集 进行 数据 挖 据 就 是 这 样 的 例子 。 在 这 样 的 应 用 中 ， 即 使 无 需 重新 安排 
并 行 计算 ,计算 能 力也 可 用 来 完成 所 需 的 任务 ， 但 想 要 在 一 个 中 心 位 置 收集 数据 也 许 是 不 可 
行 的 。 在 这 些 情况 下 ， 并 行 化 的 动机 不 仅 来 自 对 计算 资源 的 要 求 ， 而 且 也 来 自 改变 (集中 化 ) 
方法 的 不 可 行 性 或 不 必要 性 。 


1.2 并 行 计算 适用 范围 


从 科学 及 工程 应 用 的 计算 模拟 ， 到 商业 应 用 的 数据 挖掘 及 事务 处 理 等 许多 领域 ， 并 行 计 
算 已 经 产生 了 巨大 的 影响 。 并 行 化 的 成 本 优势 与 应 用 对 性 能 上 的 需求 相 结合 ， 为 促进 并 行 计 
算 提 供 了 令 人 信服 的 论据 。 下 面 给 出 并 行 计算 在 诸多 应 用 方面 的 例子 。 


1.2.1 在 工程 及 设计 中 的 应 用 


并 行 计算 传 统 上 已 成 功 地 应 用 于 机 痉 设 计 (优化 升力 、 阻 力 、 稳 定性 )， 内 燃 机 设计 ( 优 
化 负载 分 布 、 燃 烧 )， 高 速 电路 设计 (设计 时 延 、 电 容 以 及 电感 效应 ) 以 及 结构 设计 (优化 结 
构 完整 性 、 设 计 参 数 、 成 本 等 ) 等 方面 。 最 近 ， 微 电机 系统 及 毫 微 电 机 系统 (MEMS 及 
NEMS ) 的 设计 引起 了 人 们 极 大 的 重视 。 虽 然 绝 大 多 数 工程 和 设计 中 的 应 用 提出 了 多 空间 与 
多 时 间 尺 度 以 及 耦合 物理 现象 的 问题 ， 但 对 MEMS/NEMS 设 计 ， 这 些 问题 更 加 突出 。 即 使 在 
一 个 单一 的 系统 里 ， 也 经 常 要 处 理 与 量子 现象 、 分 子 动力 学 以 及 像 传 导 、 对 流 、 辐 射 和 结构 
力学 等 物理 过 程 的 随机 模型 及 连续 模型 有 关 的 混合 问题 。 这 对 几何 建 模 、 数 学 建 模 、 建 立 算 
法 以 及 所 有 与 并 行 计算 机 有 关 的 方面 都 提出 了 巨大 的 挑战 。 

在 工程 与 设计 方面 的 其 他 应 用 则 着 重 对 各 种 过 程 进行 优化 。 并 行 计算 机 已 被 用 来 解决 许 
多 离散 及 连续 优化 问题 。 如 像 线性 最 优化 和 分 支 定 界 中 的 单纯 型 法 和 内 点 法 以 及 离散 最 优化 
中 的 遗传 规划 这 样 一 些 算法 ， 都 已 被 有 效 地 并 行 化 和 频繁 使 用 。 


1.2.2 科学 计算 中 的 应 用 


过 去 儿 年 ， 在 高 性 能 科学 计算 应 用 方面 取得 了 革命 性 的 进展 。 国 际 人 类 基因 测序 联盟 和 
Celera 公 司 对 人 类 基因 的 测序 ， 在 生物 信息 学 方面 开辟 了 令 人 激动 的 新 领域 。 理 解 基因 及 蛋白 
质 的 功能 及 结构 上 的 特点 能 使 人 类 理解 并 根本 性 地 影响 生物 学 过 程 。 以 开发 新 的 药品 、 治 疗 
疾病 及 改善 医疗 条 件 为 目的 的 生物 序列 分 析 既 需要 大 规模 计算 能 力 ， 也 需要 创新 的 算法 。 实 
际 上 ， 一 些 最 新 的 并 行 计算 技术 就 是 专门 针对 生物 信息 学 方面 的 应 用 而 发 展 的 。 

在 计算 物理 学 及 计算 化 学 方面 的 进展 强调 对 尺度 从 量子 现象 到 大 分 子 结构 之 间 变 化 过 程 
的 理解 。 这 已 导致 设计 新 材料 、 理 解 化 学 反应 途径 和 更 有 效 的 反应 过 程 。 在 天 体 物 理学 方面 
的 应 用 包括 对 银河 系 的 演化 过 程 及 热 核反应 过 程 的 研究 ， 以 及 对 来 自 天 文 望远镜 的 巨大 数据 
集 的 分 析 等 。 并 行 计算 还 广泛 应 用 于 气象 模型 、 日 物 勘 探 以 及 洪水 预测 等 领域 并 对 人 类 日 党 
生活 产生 极 大 的 影响 。 
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由 于 要 分 析 巨 大 的 数据 集 ， 生 物 信息 学 和 天 体 物理 学 提出 了 一 些 极 富 挑 战 性 的 问题 。 蛋 
白质 和 基因 数据 库 (如 PDB、SwissProt 、ENTREZ 以 及 NDB) 和 天 体 观测 数据 集 (如 Sloan 
数字 天 体 观 测 ) 代表 了 一 些 最 大 的 科学 数据 集 。 有 效 地 分 析 这 些 数据 集 需 要 巨大 的 计算 能 力 ， 
有 效 地 分 析 这 些 数据 集 ， 也 是 取得 重大 科学 发 现 的 关键 。 


1.2.3 商业 应 用 


随 着 网 络 和 静态 与 动态 信息 的 广泛 使 用 ， 人 们 对 能 提供 可 扩展 性 能 的 具有 成 本 -~ 效益 的 服 
务 器 的 要 求 日 益 增 加 。 从 多 处 理 器 到 Linux 机 群 的 各 种 并 行 平台 通常 被 用 作 网 络 和 数据 库 服 务 
器 。 例 如 ， 在 事务 繁忙 的 日 子 ， 华 尔 街 的 大 经 纪行 要 处 理 成 千 上 万 个 局 时 发 生 的 用 户 交 易 及 
数 以 百 万 计 的 订单 。 处 理 这 些 商业 事务 的 服务 器 都 是 一 些 超 级 计算 机 ， 如 IBM SP， 以 及 Sun 
的 Ultra HPC 服 务 器 等 。 一 些 最 大 的 超级 计算 机 网 络 就 建立 在 华尔街 。 

利用 大 规模 事务 数据 在 优化 商业 和 开拓 市 场 的 数据 挖 据 和 分 析 方 面 产生 了 巨大 的 商业 利 
益 。 护 大 的 数据 量 以 及 数据 的 地 理 上 分 布 特性 要 求 采用 有 效 的 并 行 算法 来 解决 诸如 规则 挖 气 、 
聚集 、 分 类 以 及 时 间 - 序 列 分 析 等 问题 。 


1.2.4 计算 机 系统 中 的 应 用 


随 着 计算 机 系统 的 广泛 普及 以 及 计算 在 网 络 上 的 流行 ， 并 行 计算 也 深入 到 了 各 个 应 用 领 
域 。 在 计算 机 安全 方面 ， 入 侵 检测 是 一 个 突出 的 难题 。 在 网 络 入 侵 检 测 中 ， 计 算 机 从 分 布 的 
站 点 收集 数据 ， 并 对 信号 入侵 迅速 分 析 。 由 于 在 一 个 中 心 位 置 收集 数据 进行 分 析 是 不 可 行 的 ， 
所 以 要 求 发 展 有 效 的 并 行 及 分 布 式 算法 。 在 密码 学 领域 ， 某 些 最 引 人 注 目的 基于 因特网 的 并 
行 计算 应 用 就 是 对 极 大 的 整数 分 解 。 

仍 人 式 系 统 越 来 越 多 地 依靠 分 布 式 控制 算法 来 完成 不 同 的 任务 。 一 辆 现代 化 的 汽车 中 拥 
有 数 十 个 互 连 的 微 处 理 器 以 完成 复杂 的 任务 ， 从 而 优化 汽车 操作 及 性 能 。 在 这 样 的 系统 中 ， 
经 常用 到 一 些 传统 的 并 行 及 分 布 式 算法 来 处 理 如 优先 选择 、 最 大 独立 集 等 问题 。 

虽然 传统 的 并 行 计算 限于 在 具有 完善 的 计算 及 网 络 单元 的 平台 上 进行 ， 其 中 ， 故 障 和 错 
误 不 起 重要 作用 ， 但 是 对 特殊 的 、 移 动 的 或 有 故障 的 环境 的 并 行 计算 能 提供 有 价值 的 经 验 。 


1.3 本 书 的 组 织 及 内 容 


本 书 提供 用 并 行 计算 机 求解 问题 的 全 面 且 完备 的 方案 。 算 法 及 度量 强调 并 行 计算 机 的 实 
用 和 可 移植 模型 。 算 法 设计 原则 强调 并 行 算法 与 技巧 的 必需 属性 ， 并 在 大 量 的 应 用 和 体系 结 
构 中 获得 这 些 属 性 。 编 程 技巧 则 涵盖 如 MPI 和 POSIX 线 程 之 类 的 标准 范例 ， 这 些 范例 可 用 在 许 
多 并 行 平台 。 

本 书 各 章 可 以 分 成 如 图 1-1 所 示 的 四 个 主要 部 分 。 这 四 部 分 的 内 容 如 下 : 

基础 篇 ”包括 第 2 章 到 第 4 章 。 第 2 章 并 行 编程 平台 ， 讨 论 并 行 平台 的 物理 结构 。 建 立 用 于 
算法 设计 的 成 本 度量 。 这 一 章 的 目的 并 非 为 并 行 体系 结构 提供 一 个 完美 的 解决 方案 ， 而 是 为 
有 效 地 使 用 这 些 机 器 提供 所 需 的 细节 。 第 3 章 并 行 算法 设计 原则 ， 讨 论 实 现 有 效 并 行 算法 的 关 
键 因素 ， 并 提供 一 套 可 以 应 用 于 各 种 应 用 程序 中 的 设计 方法 。 第 4 章 基 本 通信 操作 ， 讲 述 用 于 
金 书 的 有 助 于 在 并 行 计算 中 进行 有 效 数 据 传输 的 一 组 核心 操作 。 最 后 ， 第 5 章 并 行程 序 的 解析 
建 模 ， 论 述 量化 并 行 算法 性 能 的 各 种 度量 。 
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7. 共享 地 址 空间 平台 的 编程 


6. 使 用 消息 传递 模式 的 编程 


并 行 编程 篇 





12. 动态 规划 


非 数值 算法 入 








8. 稠密 矩阵 算法 


13. 快速 傅 里 叶 变换 





数值 算法 篇 


图 1-1 本 书 各 章 的 推荐 阅读 顺序 


并 行 编程 篇 ”包括 第 6 章 及 第 7 章 。 第 6 章 使 用 消息 传递 模式 的 编程 ， 着 重 于 消息 传递 平台 
(包含 机 群 ) 编程 的 消息 传递 接口 (MPI)。 第 7 章 共 享 地 址 空间 平台 的 编程 ， 讲 述 如 线程 及 基 


于 命令 方法 的 编程 模式 。 利 用 如 POSIX 线 程 及 OpenMP 等 模式 ， 描述 在 共享 地 址 空间 并 行 计算 


机 编程 所 必需 的 各 种 要 素 。 这 两 章 使 用 大 量 并 行程 序 的 例子 阐述 不 同 的 编程 概念 。 

非 数 值 算法 篇 ”包括 第 9 ~ 12 章 ， 讲 述 非 数 值 并 行 算法 。 第 9 章 排序 ， 讲 述 双 调 排序 、 冒 
泡 排 序 及 其 变 体 、 快 速 排序 、 样 本 排序 以 及 希 尔 排序 等 。 第 10 章 图 算法 ， 讲 述 各 种 图 论 问题 
的 算法 ， 如 最 小 生成 树 、 最 短路 径 以 及 连通 分 量 等 。 这 一 章 还 讨论 稀疏 图 。 第 11 章 离散 优化 
问题 的 搜索 算法 ， 讲 述 组 合 问题 中 基于 搜索 的 方法 ， 如 分 支 定 界 及 启发 式 搜索 等 。 第 12 章 动 
态 规划 ， 对 各 种 动态 规划 算法 进行 分 类 并 提出 并 行 公式 。 
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数值 算法 篇 ”包括 第 8 章 和 第 13 章 ， 讲 述 并 行 数 值 算 法 。 第 8 章 稠密 矩阵 算法 ， 讲 述 稠密 
矩阵 的 一 些 基本 运算 ， 如 第 阵 乘法 、 抵 阵 向 量 乘法 以 及 高 斯 消 元 法 等 。 这 一 章 放 在 非 数 值 算 
法 篇 之 前 ， 是 因为 对 于 许多 非 数值 算法 来 说 ， 分 割 并 分 配 和 矩阵 给 处 理 机 对 许多 非 数值 算法 是 
常见 的 技术 。 而 且 ， 和 矩阵 向 量 乘法 算法 及 矩阵 乘法 算法 是 许多 图 论 算法 的 核心 。 第 13 章 快速 
传 里 叶 变 换 ， 讲 述 计算 快速 傅 里 叶 变换 的 算法 。 


1.4 书目 评注 


许多 书籍 在 不 同 层次 上 讨论 并 行 处 理 。 有 几 本 教科 书 及 专著 广泛 讨论 了 并 行 计 算 机 的 硬 
件 方面 [CSG98, LW95, HX98, AG94, Fly95, AG94, St093, DeC89, HB84, RF89, Sie85, Tab90， 
Tab91, WF84, Woo086] 。。 许 多 教材 讨论 并 行 计算 机 编程 语言 及 范例 [LB98, Pac98, GLS99， 
GSNL98, CDK: 00, WA98, And91, BA82, Bab88, Ble90, Con89, CT92, Les93, Per87, Wal91]. 
Akl [AKk197]、Cole [Col89] 、Gibbsons 和 Rytter [GR90]、Foster [Fos95]、 Leighton [Lei92]、 
Miller 和 Stout [MS96] 以 及 Quinn [Qui94] 讨 论 并 行 算 站 设计 与 分 析 的 诸多 方面 。Buyya (编辑 ) 
[Buy99] 和 Pfister 讨 论 使 用 机 群 的 并 行 计算 。Jaja [Jaj92] 讨 论 用 于 PRAM 计 算 模型 的 并 行 算法 。 
Hillis [Hil85, HS86] 、Hatcher 和 Quinn [HQ91] 讨 论 数据 并 行 编程 。 Agha [Agh86] 讨 论 一 个 基于 
角色 (actor) 的 并 发 计算 模型 。Sharp [Shag5] 讨 论 数据 流 计算 . 有 些 书 籍 提供 关于 并 行 计 算 
课题 的 总 览 [CL93, Fou94, Zom96, JGD87, LER92, Mol93, Qui94]。 许 多 书籍 讲述 数值 分 析 与 
科学 计算 方面 并 行 j 处 更 舶 应 用 [DDSV99, FJDS96， GO93, Car89], Fox et al. [FJL+88] 以 及 
Angus et al. [AFKW90] 对 于 科学 计算 中 的 问题 提出 *- 种 面向 应 下 的 算法 设计 观点 ， Bertsekas 
和 Tsitsiklis [BT97] 着 重 讨论 数值 应 用 方面 的 并 行 算法 。 

Akl 和 Lyons[AL93] 讨 论 计 算 几 何 中 的 并 行 算法 。Ranka 和 Sahni [RS90b] 以 及 Dew， 
Earnshaw 和 Heywood [DEH89] 讲 述 计算 机 视觉 方面 的 并 行 算 法 。Green[Gre91] 讲 述 图 形 应 用 
中 的 并 行 算 法 。 许 多 书籍 讲述 并 行 处 理 在 人 工 智能 方面 的 应 用 [Gup87, HD89b, KGK90， 
KKKS94, Kow88, R289]。 

计算 机 协会 《Association for Computing Machinery ，ACM) 把 许多 有 用 的 综述 、 参 考 书 
目 以 及 索引 收集 到 一 起 [ACM91]。Messina 和 Murli [MM91] 收 集 许多 关于 并 行 计算 在 各 方面 
应 用 以 及 法 在 应 用 领域 的 文章 。 在 NSF 报 告 [NSF91, GOV99] 中 还 讨论 了 并 行 计算 的 应 用 范围 
以 及 美国 政府 对 并 行 计算 多 方面 的 支持 。 

许多 会 议 讨论 并 行 计 算 的 各 个 方面 。 重 要 的 会 议 有 超级 计算 会 议 (Supercomputing 
Conference, SC)， 并 行 算法 及 体系 结构 的 ACM 讨 论 会 ， 并 行 处 理 国际 会 议 ， 并 行 及 分 布 式 处 
理 国际 讨论 会 ， 并 行 计算 以 及 关于 并 行 处 理 的 SIAM 会 议 。 并 行 处 理 的 重要 期 刊 包 括 《IEEE 并 
行 与 分 布 式 系统 学 报 》, 《并行 编程 国际 杂志 》, 《并 行 及 分 布 式 计算 杂 志 》, 《并 行 计算 》, 
《IEEE 并 发 及 并 行 处 理 快报 》。 这 些 会 议 的 会 议 录 和 杂志 为 并 行 处 理 的 发 展 水 平 提供 了 丰富 的 
信息 资源 。 / 


习题 
1.1 访问 世界 前 500 名 超级 计算 机 站 点 (http://www.top500.org )， 列 出 功能 最 强大 的 前 5 


日 注 : 原 英文 版 的 “参考 文献 ” 部分 的 电子 文件 现 放 在 http:/wwwhzbook ,com 上 ， 有 需要 的 读者 请 到 网 站 上 


下 载 。 
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台 超 级 计算 机 及 它们 的 FLOPS 。 
1.2 在 以 下 领域 ， 列 出 需要 使 用 超级 计算 机 的 三 个 主要 问题 : 
(i) 结构 力学 
(ii) 计算 生物 学 
(iii) 商业 应 用 
1.3 ”收集 若干 年 来 集成 电路 发 展 过 程 中 元 件数 目的 统计 信息 ， 画 出 元 件数 目 作为 时 间 函 [10] 
数 的 曲线 ， 并 把 增长 率 与 摩尔 定律 进行 比较 。 


1.4 ”对 处 理 器 峰值 浮 点 运算 速度 重复 上 一 题 的 试验 ， 并 把 运算 速度 与 摩尔 定律 进行 比 
较 。 





第 2 章 ”并 行 编程 平台 


传统 意义 上 的 串 行 计算 机 是 由 经 数据 通道 连接 到 处 理 器 的 内 存 所 组 成 的 。 所 有 这 三 个 部 
件 一 一 处 理 绢 、 内 存 以 及 数据 通道 一 一 形成 计算 机 系统 总 体 处 理 速 度 的 瓶颈 。 多 年 来 ， 许 多 
体系 结构 上 的 单 新 都 是 为 了 解决 这 些 瓶 颈 。 其 中 最 重要 的 革新 之 一 就 是 使 用 多 处 理 器 、 多 数 ， 
据 通道 以 及 多 内 存单 元 。 这 种 多 重 性 对 于 程序 员 来 说 ， 要 么 像 隐 式 并 行 性 一 样 完全 隐藏 ， 要 
么 以 不 同 的 形式 提供 给 程序 员 。 本 章 将 对 与 并 行 处 理 相关 的 重要 的 体系 结构 概念 作 一 综述 ， 
其 目的 是 为 了 给 程序 员 提供 足够 的 细节 ， 使 他 们 能 在 各 种 各 样 的 平台 上 写 出 高 效 的 代码 。 本 
章 提出 用 来 量化 不 同 并 行 算法 性 能 的 成 本 模型 和 抽象 ， 并 辨识 由 各 种 编程 结构 导致 的 瓶颈 。 

本 章 对 并 行 平 台 的 讨论 将 从 简单 地 回顾 串 行 及 隐 式 并 行 体系 结构 开始 。 这 是 因为 ， 在 很 
多 情况 下 用 简单 的 程序 转换 工具 得 到 的 代码 会 有 显著 的 速度 提升 〈 比 未 优化 时 的 速度 快 2 倍 至 
5 倍 )。 对 次 优化 的 串 行 代码 并 行 化 ， 往 往 会 导致 一 些 不 良 后 果 ， 如 不 可 靠 的 速度 提升 ， 易 使 
人 误解 的 运行 时 间 等 。 因 此 ， 在 对 代码 并 行 化 之 前 ， 最 好 先 优化 串 行 代码 的 性 能 。 正 如 本 章 
所 示 ， 对 代码 的 串 行 优化 及 并 行 优化 有 着 非常 相似 的 特点 。 在 讨论 串 行 及 隐 式 并 行 体系 结构 
后 ， 本 章 的 其 余部 分 将 讨论 并 行 平台 的 组 织 、 算 法 的 基本 成 本 模型 以 及 用 于 可 移植 算法 设计 
的 平台 抽象 等 。 想 直接 研究 并 行 体系 结构 的 读者 可 以 跳 过 2.1 节 和 2.2 节 。 


2.1 隐 式 并 行 : 微 处 理 器 体系 结构 的 发 展 趋势 * 


在 过 去 的 10 年 间 ， 虽 然 微 处 理 器 技术 在 时 钟 频率 上 取得 了 重大 进展 ， 但 也 遇 到 了 多 种 性 
能 瓶 顷 。 为 减 小 瓶颈 ， 微 处 理 器 设计 者 尝试 了 多 种 方法 ， 以 获得 有 成 本 -效益 的 性 能 。 本 节 将 
对 这 些 方法 作出 概括 ， 了 解 这 些 方法 的 局 限 性 以 及 它们 对 算法 及 代码 开发 的 影响 。 本 节 不 是 
为 了 对 处 理 器 的 体系 结构 作 全 面 的 描述 。 关 于 处 理 器 的 体系 结构 ， 参 考 书目 中 提 到 几 本 很 好 
的 教科 书 。 

在 过 去 的 20 年 里 ， 微 处 理 器 的 时 钟 频率 提高 了 2 至 3 个 数量 级 。 然 而 ， 内 存 技术 的 限制 严 
重地 抵消 了 时 钟 速度 的 提高 。 同 时 ， 设 备 的 高 度 集成 也 导致 晶体 管 数 目 变 得 非常 巨大 ， 如 何 
最 好 地 发 挥 它们 的 作用 便 成 了 明显 的 问题 。 结 果 ， 人 允许 在 一 个 时 钟 周期 内 执行 多 个 指令 已 成 
为 普遍 的 技术 。 事 实 上 ， 在 如 今 一 代 的 微 处 理 器 ， 如 Itanium、Sparc Ultra、MIPS 以 及 Power4 
中 ， 这 种 趋势 都 是 显而易见 的 。 本 节 将 简单 地 研究 各 种 处 理 器 用 于 支持 多 指令 执行 的 机 制 。 


2.1.1 流水 线 与 超标 量 执行 


处 理 粥 长 时 间 以 来 依靠 流水 线 来 提升 执行 速度 。 通 过 在 指令 执行 过 程 中 重 登 不 同 的 阶段 
( 取 指 令 、 调 度 、 译 码 、 取 操作 数 、 执 行 以 及 存储 等 )， 流 水 线 操作 能 使 执行 速度 加 快 。 装 配 
线 与 流水 线 的 机 理 类 似 。 如 果 装 配 一 辆 汽车 需要 100 个 时 间 单 元 ， 将 它 分 成 10 个 流水 线 阶段 ， 
每 个 阶段 10 个 时 间 单 元 ， 那 么 一 条 装配 线 每 10 个 时 间 单 元 就 能 生产 一 辆 汽车 ! 这 表明 比 完全 
按 串 行 方式 一 步 接 一 步 地 生产 汽车 的 速度 提高 了 10 倍 。 从 这 个 例子 还 可 以 看 到 ， 为 了 提高 音 
个 度 水 线 的 速度 ， 可 以 将 任务 分 成 更 小 的 单元 ， 这 样 就 能 使 流水 线 变 长 ， 增 加 执行 时 的 重 便 
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时 间 。 对 处 理 尼 而 言 ， 因 为 现在 的 任务 变 小 了 ， 这 样 的 做 法 能 使 时 钟 的 速度 更 快 。 例 如 ，2.0 
GHz 的 奔腾 IV 处 理 器 就 有 一 个 20 阶 段 的 流水 线 。 注 意 ， 单 流水 线 的 速度 最 终 受 到 流水 线 中 最 
大 原子 任务 的 限制 。 而 且 ， 对 典型 的 指令 跟踪 后 发 现 ， 每 隔 5 到 6 条 指令 就 是 一 个 分 支 指 令 ， 
内 此 ， 长 指令 流水 线 需 要 有 效 的 技术 来 预示 分 支 的 目的 地 ， 使 得 流水 线 在 理论 上 是 满 的 。 当 
流水 线 深 度 变 大 ， 大 量 指令 需要 清除 时 ， 预 示 错 误 的 后 果 就 会 增加 ， 这 些 因 素 限 制 处 理 器 流 
水 线 的 次 度 ， 进 而 影响 处 理 器 的 性 能 。 

除 此 之 外 使 用 多 个 流水 线 是 提高 指令 指令 执行 速度 的 一 个 有 效 方法 。 在 每 个 时 钟 周 期 ， 
多 条 指令 被 并 行 地 提交 给 处 理 器 。 这 些 指令 在 多 个 功能 部 件 执行 。 下 面 用 例子 来 说 明 这 个 过 
程 。 
例 2.1 超标 量 执行 


设 某 处 理 器 具有 两 条 流水 线 ， 并 能 同时 发 送 两 条 指令 。 这 种 处 理 器 有 时 称 为 超 流水 线 处 
理 茹 。 处 理 喜 在 同一 周期 发 送 多 条 指令 的 能 力 称 为 超标 量 执行 。 由 于 图 2-1 的 体系 结构 允许 在 
每 个 时 钟 周期 发 送 两 条 指令 ， 它 也 称 为 两 路 超标 量 或 双 指 令 发 送 执行 。 


1. load RL，g@l000 1. load Ri, ®@1000 1. load Ri, @1000 
2. load R2, @1008 2. add R1, @1004 2. add R1, @1004 
3. add R1, @1004 3. add R1, ®1008 3. load R2, @1008 
4. add R2, @100C 4. add Rl1, @100C 4. add R2, @100C 
5. add R1, R2 5. store R1, @2000 5. add R1i, R2 

6. Store Ri, @2000 6. gtore Ri1i, ®@2000 


(i) (i) (ii 


a) 4 个 数 相 加 的 三 种 不 同 的 代码 段 





指令 周期 

0 2 4 6 8 

load R1, @1000 0D: 指令 评 码 
| |ID|or load R2, @1008 OF: 取 操 作 数 


. 全 . 抽 i 二 
FD[o]E |adn, oo WE 人 办 


EE add R2, @100C NA: 无 动作 


|_oF | 
|D|N|vw| Store Ri, ®@2000 


b) 代码 段 0) 的 执行 调度 


时 钟 周 期 

4 

5 所 全 发 送 权 

6 水 平 浪费 

7 季 直 浪费 L 空 发 送 权 
加 法 器 利用 


c) 流程 b) 中 调度 的 硬件 利用 跟踪 
图 2-1 两 路 超标 量 指令 执行 示例 





考察 图 2-1 中 4 个 数 加 法 的 第 一 个 代码 段 。 第 一 条 指令 与 第 二 条 指令 相互 独立 ， 因 此 这 两 
条 指令 可 以 同时 发 送 。 如 图 所 未 在 ! = 0 同时 发 出 了 load R1L1，@1000 与 1oad R2, @1008 
两 条 指令 ， 随 后 取出 指令 、 对 指令 译 码 以 及 取 操 作 数 。 接 下 来 的 两 条 指令 adad R1，@1004 
与 add R2，@100C 虽 然 必 须 在 最 开始 的 两 条 指令 后 执行 ， 但 它们 也 是 彼此 独立 的 。 由 于 处 
理 器 的 流水 线 操作 ， 在 +: = 1 时 这 两 条 指令 也 同时 发 送 。 这 些 指令 在 ! = 5 时 终止 。 接 下 来 的 两 
条 指令 add R1，R2 以 及 store R1，@2000 不 能 同时 执行 ， 因 为 第 二 条 指令 要 用 到 第 一 条 
指令 的 结果 (R1 寄 存 器 的 内 容 )。 因 此 ， 只 有 add 指 令 在 : = 2 时 发 送 ，store 指 令 在 1: = 3 时 发 
送 。 注意 add R1，R2 指 令 只 有 在 它 的 前 两 条 指令 执行 完毕 后 才能 执行 。 指 令 调度 如 图 2-1b 
所 示 。 该 调度 假设 每 一 次 内 存 访问 占用 一 个 时 钟 周 期 。 事 实 上 并 非 一 定 如 此 。 这 个 假设 隐 含 
的 内 容 在 2.2 市 的 内 存 系 统 性 能 部 分 讨论 。 : 图 


超标 量 执行 的 原理 是 很 自然 的 ， 其 至 是 简单 的 。 然 而 ， 关 于 它 还 有 很 多 问题 需要 解决 。 
首先 ， 如 例 2.1 所 示 ， 程 序 中 的 指令 很 可 能 彼此 相关 。 某 一 指令 的 执行 结果 可 能 要 被 它 的 后 续 
指令 用 到 。 这 种 情况 称 为 真实 数据 相关 性 (true data dependency )。 例如 ， 考虑 图 2-1 中 4 个 数 
字 相 加 的 第 二 个 代码 段 。 在 load R1，@1000 与 add R1l， @1004 之 间 就 存在 真实 数据 相关 
性 ， 后面 的 指令 间 也 存在 类 似 的 相关 性 。 在 同时 发 送 指令 前 ， 这 种 类 型 的 相关 性 必需 解除 。 
这 人 句 话 有 两 层 含义 : 首先 ， 由 于 要 在 运行 时 解除 相关 性 ， 必需 要 有 硬件 支持 。 这 样 硬件 就 会 
变 得 很 复杂 。 其 次 ， 程 序 中 指令 级 并 行 的 数量 通常 是 有 限 的 ， 可 以 通过 编程 技巧 解决 。 在 第 
二 个 代码 段 ， 不 能 同时 发 送 指令 ， 这 样 资源 的 利用 率 就 会 很 低 。 图 2-1a 中 的 三 个 代码 段 也 表 
明 ， 在 许多 情况 下 ， 如 果 重 排 指令 的 顺序 并 且 改 变 代码 ， 便 有 可 能 实现 更 高 的 并 行 性 。 注 意 
在 这 个 例子 中 ， 代码 的 重新 组 织 对 应 于 可 由 指令 发 送 机 制 利用 的 一 一 种 并 行 形式 。 

男 一 种 指令 间 的 相关 性 是 由 多 个 流水 线 分 享有 限 的 资源 造成 的 。 税 如 ， 在 只 有 一 个 浮 点 
部 件 的 双 指 令 发 送 机 器 上 同时 执行 两 个 浮 点 操作 ， 虽然 指令 间 可 能 不 存在 数据 相关 性 ， 但 两 
个 操作 也 不 能 同时 进行 ， 因 为 它们 都 需要 用 到 浮 点 部 件 。 这 种 两 条 指令 竞争 单一 一 处 理 器 资源 
造成 的 相关 性 称 为 资源 相关 性 (resource dependency )。 

程序 间 的 控制 流程 造成 指令 间 的 第 三 种 相关 性 。 当 执 行 一 一 个 条 件 分 支 指令 时 ， 只 有 在 执 
行 点 才 知 道 分 支 将 转向 何 处 ， 而 事先 指令 通过 在 分 支 处 的 转向 就 可 能 导致 错误 。 这 种 相关 性 
称 为 分 支 相关 性 (branch dependency) 或 过 程 相关 性 ( procedural dependency ) 。 通常 在 通过 
分 支 处 用 推测 调度 表 处 理 ， 并 且 一 旦 出 错 就 回 退 。 典 型 的 跟踪 研究 表明 ， 平 均 每 陋 5 到 6 条 指 
六 于 人 因此 ， 如 在 集中 的 指令 流水 线 中 一 一 样 ， 对 于 有 效 的 超标 量 执 和 了 来 

， 维 确 的 分 支 预测 是 非常 重要 的 。 

对 于 超标 量 执 行 来 说 ， 处 理 器 检测 及 调度 并 发 指令 的 能 力 蚊 很 重要 的 。 例如 , 人 
三 个 代码 段 也 计算 4 个 数 的 和 。 读 者 会 发 现 其 实 它 是 第 一 个 代码 段 语义 上 等 价 的 重新 排列 。 
而 ， 在 这 种 情况 下 ， 开 始 的 两 条 指令 1oad R1，@1000 与 add R1， 21004 之 间 存 在 数 沁 相 
天 性 。 因此， 这 两 条 指令 不 能 被 同时 发 送 。 但 是 ， 如 果 处 理 器 具有 预测 能 力 ， 它 就 可 能 在 调 
度 第 一 条 指令 的 同时 调度 第 三 条 指令 load R2，@1008。 在 下 一 个 发 送 周 期 ， 指 令 2 与 指令 4 
也 能 同时 调度 。 这 样 第 一 个 代码 段 与 第 三 个 代码 段 具 有 同样 的 执行 调度 。 然 而 ， 处 理 器 必须 
具有 乱 序 (out-of-order) 发 送 指令 的 能 力 ， 才能 完成 需要 的 指令 顺序 重 排 。 就 上 面 的 例子 而 
言 ， 只 能 依 序 (in-order) 发 送 指令 的 并 行 化 就 难以 达到 这 一 步 。 绝 大 多 数 流行 的 处 理 器 能 够 


乱 序 发 送 指 令 并 完成 指令 。 这 种 模型 也 称 为 动态 指令 发 送 ， 利 用 最 大 指令 级 并 行 性 。 处 理 器 
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使 用 一 个 指令 窗口 ， 从 中 选择 同时 发 送 的 指令 。 该 窗口 对 应 于 调度 程序 的 预测 。 

超标 量 体 系 结构 的 性 能 受到 可 用 指令 级 并 行 性 的 限制 。 考 虑 图 2-1 中 的 例子 。 为 使 讨论 简 
单 化 ， 我 们 忽略 例子 中 的 流水 线 操作 方面 ， 只 注重 程序 的 执行 方面 。 假 设 有 两 个 执行 部 件 
(乘法 ~ 加 法 部 件 )， 图 中 说 明 有 有 几 个 零 发 送 周期 ( 浮 点 部 件 空闲 的 周期 )。 从 执行 部 件 的 角度 
来 说 ， 这 些 周期 实际 上 都 被 浪费 掉 了 。 如 果 某 一 周期 中 执行 部 件 没有 指令 发 送 ， 就 称 为 垂直 
浪费 〈vertical waste) ; 如 果 一 个 周期 中 只 用 到 部 分 执行 部 件 ， 就 称 为 水 平 浪费 (horizontal 
waste)。 本 例 中 有 两 个 周期 的 垂直 浪费 及 一 个 周期 的 水 平 浪费 ， 总 共 8 个 可 用 周期 中 只 有 3 个 
用 于 计算 。 这 就 意味 着 代码 段 的 运算 速度 不 会 超过 处 理 器 峰值 浮 点 运算 速度 的 3/8。 通 常 ， 并 
行 性 的 限制 、 资 源 相关 性 以 及 处 理 器 不 能 实现 并 行 性 ， 都 会 造成 超标 量 处 理 器 资源 严重 利用 
不 足 。 当 前 的 微 处 理 器 通常 支持 最 高 到 4 指令 发 送 的 超标 量 执 行 。 


2.1.2 超 长 指令 字 处 理 器 ' 


由 超标 量 处 理 器 抽出 的 并 行 性 通常 受到 指令 预测 的 限制 。 在 常规 处 理 器 中 ， 用 于 动态 相 
关 性 分 析 的 硬件 逻辑 一 般 占 总 逻辑 的 5% ~ 10% ( 大约 是 4 路 超标 量 处 理 器 Sun UltraSPARC 的 
5%)， 复 杂 度 大 约 以 发 送 指令 数 的 二 次 方 增长 ， 并 可 能 导致 狐 闫 。 在 超 长 指令 字 (VLIW) 处 
理 器 中 使 用 的 利用 指令 级 并 行 性 的 另 一 种 概念 ,依赖 于 编译 时 解决 相关 性 与 资源 可 用 性 的 编 
译 器 。 它 把 能 够 并 发 执行 的 指令 并 人 到 一 个 组 里 ， 作 为 一 个 超 长 指令 字 (这 也 是 名 称 的 由 来 ) 
分 发 给 处 理 嚣 ， 并 同时 在 多 个 功能 部 件 上 执行 。 

VLIW 的 概念 最 初出 现在 Multiflow Trace (circa 1984 ) 里 ， 然后 它 的 一 种 变 体 出 现在 
Intel 的 IA64 体 系 结构 中 ， 与 超标 量 处 理 器 相 比 ， 它 既 有 优点 也 有 缺点 。 因为 调度 用 软件 来 完 
成 ,在 VLIW 处 理 器 中 的 解码 与 指令 发 送 机 制 都 要 简单 一 些 。 与 硬件 发 送 部 件 相 比 ， 编 译 器 有 
更 大 的 指令 语句 选择 余地 ， 可 以 用 许 许 多 多 的 变换 来 优化 并 行 处 理 。 其 他 的 并 行 了 指令 通常 被 
编译 器 用 来 控制 并 行 执行 。 然 而 ， 编译 器 中 没有 动态 程序 状态 (如 分 支 历 史 缓冲 器 ) 来 对 调 
度 进 行 决策 ， 这 样 就 降低 了 分 支 与 内 存 预测 的 准确 性 ， 但 是 能 使 用 更 复杂 的 静态 预测 方法 。 
其 他 运行 期 的 情况 ， 如 因 高 速 缓存 没有 命中 而 造成 的 取 数 据 故 障 ， 则 更 加 难以 准确 预测 。 这 
就 限制 了 基于 编译 器 静态 调度 的 应 用 范围 及 性 能 。 

最 后 ，VLIW 处 理 器 的 性 能 对 编译 器 检测 数据 及 资源 相关 性 的 能 力 、 读 写 故 障 和 为 实现 最 
大 并 行 性 而 调度 指令 等 都 非常 敏感 。 循 环 的 跳出 、 分 支 预测 以 及 推 狂 性 执行 等 对 VLIW 处 理 器 
的 性 能 来 说 都 至 关 重 要 。 虽 然 超 标量 与 VLIW 处 理 器 对 利用 隐 式 并 行 性 非常 成 功 ， 但 它们 通 党 
都 局 限 在 4 路 到 8 路 并 行 的 小 规模 并 发 处 理 上 。 


2.2 内 存 系统 性 能 的 局 限 * 


计算 机 中 程序 的 有 效 性 能 不 仅 依赖 于 处 理 器 的 速度 ， 还 依赖 内 存 系统 向 处 理 器 传送 数据 
的 能 力 。 从 远 辑 层次 上 讲 ， 内 存 系统 可 能 由 多 级 缓存 构成 ， 当 它 收 到 一 条 内 存 字 请 求 ， 在 ! 纳 
秒 的 延迟 后 ， 会 返回 大 小 为 的 包含 请 求 字 的 数据 块 。 这 里 ，! 称 为 内 存 的 延迟 (latency)。 数 
据 从 内 存 送 到 处 理 器 的 速度 决定 了 内 存 系统 的 带宽 (bandwidth )。 

理解 延迟 与 带宽 的 区 别 是 非常 重要 的 ， 因 为 不 同 的 通常 相互 竞争 的 技术 需要 处 理 这 种 区 
别 。 打 个 比方 说 ， 如 果 打 开 消 防 龙头 后 2 秒 钟 水 才 从 消防 水 管 的 尽头 流出 ， 那 么 这 个 系统 的 延 
运 就 是 2 秒 。 水 流 开始 后 ， 如 果 水 管 1 秒 钟 能 流出 1 加 仑 的 水 ， 那 么 这 个 水 管 的 “带宽 ”就 是 1 





加 仑 / 秒 。 如 果 想 立刻 扑灭 火灾 ， 延 迟 时 间 应 该 更 小 。 这 样 就 需要 消防 栓 处 有 更 大 的 水 压 
一 方面 ， 如 果 和 希望 扑灭 更 大 的 火 ， 就 需要 更 大 的 水 流速 度 ， 这 样 就 要 求 更 大 的 水 管 及 消防 栓 。 
这 一 切 和 内 存 系统 的 运作 方式 很 相似 。 延 迟 与 带宽 都 对 内 存 系 统 的 性 能 起 着 关键 作用 。 下 面 
将 用 几 个 例子 更 详细 地 分 别 研究 这 两 个 方面 。 

为 研究 内 存 系统 延迟 的 作用 ， 在 下 面 的 例子 中 假设 内 存 块 由 一 个 字 组 成 。 在 后 面 研 究 内 
存 带 宽 时 放宽 这 个 假设 。 由 于 我 们 只 对 可 获得 最 佳 性 能 感 兴趣 ， 我 们 同时 假设 使 用 最 佳 高 速 
缓存 替代 策略 。 对 内 存 系统 设计 的 详细 讨论 ， 请 读者 阅读 有 关 的 参考 文献 。 


例 2.2 内 存 延 迟 对 性 能 的 影响 


考虑 某 一 处 理 器 以 1 GHz (1 纳 秒 时 钟 ) 运行 ， 与 之 相连 的 DRAM 有 100 纳 秒 的 延迟 (无 高 
速 缓存 )。 假 设 处 理 器 有 两 个 乘法 -加 法 部 件 ， 在 每 个 1 纳 秒 的 周期 内 能 执行 4 条 指令 。 这 样 处 
理 器 的 峰值 速度 就 是 4 GFLOPS。 由 于 内 存 延 迟 时 间 等 于 100 个 周期 ， 并 且 块 大 小 为 一 个 字 ， 
每 次 发 送 内 存 请 求 时 ， 处 理 器 在 处 理 数据 前 必需 等 待 100 个 周期 。 考 虑 在 这 样 的 平台 上 计算 两 
个 向 量 的 点 积 。 计 算 点 积 对 每 对 向 量 元 素 进行 一 次 乘法 -加 法 运算 ， 即 每 一 次 浮 点 运算 需要 取 
一 次 数据 。 很 显然 这 种 浮 点 运算 的 最 大 速度 仅仅 为 每 100 纳 秒 ! 次 、 或 10 MFLOPS， 只 是 处 理 
器 峰值 速度 的 很 小 部 分 。 这 个 例子 非常 有 力 地 说 明 有 效 内 存 系统 性 能 对 获得 高 运算 速度 的 作 
用 。 : 国 


2.2.1 使 用 高 速 缓存 改善 有 效 内 存 延 迟 


处 理 器 与 DRAM 速 度 的 不 匹配 促进 了 内 存 系统 设计 中 许多 体系 结构 上 的 创新 。 其 中 一 种 
创新 便 是 在 处 理 器 与 DRAM 之 间 放 置 更 小 更 快 的 内 存 。 这 种 内 存 称 为 高 速 缓 在， 是 一 种 低 延 
迟 高 带宽 的 存储 器 。 处 理 器 需要 的 数据 首先 被 取 到 高 速 缓存 中 ， 以 后 所 有 对 高 速 缓存 中 数据 
的 访问 都 由 高 速 缓存 来 完成 。 这 样 ， 从 理论 上 说 ， 如 果 某 一 数据 被 重复 使 用 ， 高 速 缓存 就 能 

减少 内 存 系统 的 有 效 延 迟 。 由 高 速 缓存 提 供 的 数据 份额 称 为 高 速 缓存 命中 率 (hit ratio)。 许 
多 应 用 程序 有 效 的 运算 速度 不 仅仅 受 CPU 处 理 速度 的 限制 ， 还 受 能 送 到 CPU 的 数据 传送 速度 
的 限制 。 这 种 运算 称 为 内 存 受 限 (memory bound) 的 运算 。 高 速 缓存 命中 率 严 重 影响 受 内 存 
受 限 程序 的 性 能 。 


例 2.3 高 速 缓 存 对 内 存 系统 性 能 的 影响 


如 上 一 个 例子 那样 ， 处 理 器 时 钟 频率 仍 为 1 GHz , DRAM 延 迟 仍 为 100 纳 秒 。 这 个 例子 中 ， 
加 入 一 个 32 KB 和 延迟 时 间 为 1 纳 秒 或 一 个 时 钟 周期 的 高 速 缓 存 (通常 集成 在 处 理 器 上 )。 用 这 
样 的 配置 进行 两 个 32 x 32 的 矩阵 4 和 矩阵 B 相 乘 。 精 心 选 择 这 些 数字 ， 使 高 速 缓存 能 存储 矩阵 
4 和 矩阵 8 及 结果 矩阵 C。 另 外 ， 假 设 高 速 缓存 替代 策略 是 理想 的 ， 这 样 就 能 避免 数据 项 被 其 
他 项 歼 盖 。 将 两 个 矩阵 取 到 高 速 缓存 中 等 同 于 取 2K 字 ， 这 大 约 需要 200 微 种 。 两 个 ax n 的 从 
阵 相 乘 需要 进行 2 次 运算 ， 这 样本 例 就 需要 64K 次 操作 ， 如 果 每 个 周期 执行 4 条 指令 ， 就 需要 
16K 周 期 (或 16 微 秒 )。 因 此 总 计算 时 间 大 约 是 加 载 时 间 、 存 储 时 间 以 及 计算 时 间 之 和 ， 即 
200+16 微 秒 。 这 与 最 大 计算 速度 64K/216 或 303 MFLOPS 对 应 。 注 意 ， 虽 然 还 不 到 处 理 器 峰值 
性 能 的 10%， 但 这 是 前 一 个 例子 的 30 倍 。 从 这 个 例子 可 以 看 到 ， 虽 然 只 是 放置 了 一 小 块 高 束 
缓存 ， 却 显著 地 提高 了 处 理 器 的 利用 率 。 四 
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利用 高 速 缓存 达到 性 能 提升 必需 假定 能 够 重复 引用 同一 数据 项 。 在 一 段 短 的 时 间 间 隔 内 
重复 引用 数据 项 的 概念 称 为 引用 的 时 间 本 地 性 (temporal locality )， 在 这 个 例子 中 ， 有 O(n”) 
次 数据 访 回 及 OU) 次 计算 《附录 中 有 关于 O 的 解释 )。 对 高 速 缓存 的 性 能 来 说 ， 数 据 重用 非常 
重要 ， 央 为 如 采 数 据 项 只 用 到 了 一 次 ， 那 么 使 用 一 次 后 还 要 到 DRAM 中 取 其 他 数据 ， 这 样 每 
次 操作 都 要 遇 到 DRAM 延 述 。 


2.2.2 内 存 带 宽 的 影响 


内 存 带 宽 指 的 是 数据 在 内 存 与 处 理 器 间 传 送 的 速度 ， 它 是 由 内 存 总 线 的 带宽 及 内 存 部 件 
决定 的 。 一 个 常用 的 提高 内 存 带宽 的 技术 是 增加 内 存 块 的 大 小 。 为 了 解释 清楚 所 讨论 的 问题 ， 
先 放 松 对 内 存 块 大 小 的 简化 限制 ， 并 假设 某 一 内 存 请 求 返回 4 个 字 的 连续 块 。 这 种 4 个 字 的 单 
一 单元 也 称 为 高 速 线 存 行 (cache line)。 普 通 计算 机 经 常 取 2 至 8 个 字 到 商 速 盘存 中 。 我 们 会 看 
到 ， 这 种 技术 有 助 于 提高 那些 数据 重用 受 限制 的 应 用 程序 的 性 能 。 


例 2.4 块 大 小 的 影响 : 两 个 向 量 的 点 积 


再 次 假设 内 存 系统 的 高 速 缓存 为 1 个 周期 处 理 器 时 钟 频率 为 GHz ，DRAM 延 迟 为 100 
纳 秒 。 如 果 块 大 小 为 一 个 字 ， 则 处 理 器 需要 100 个 周期 来 取 每 一 个 字 。 对 每 对 字 来 说 ， 点 积 需 
要 一 次 乘法 -加 法 运算 ， 即 2FLOP。 因 此 ， 每 隔 100 个 周期 进行 一 次 浮 点 运算 ， 正 如 例 2.2 所 示 ， 
运算 的 最 大 速度 为 10 MELOPS 。 

如 末 块 大 小 增加 到 4 个 字 ， 即 处 理 器 每 100 个 周期 能 取 4 个 字 的 高 速 缓 存 行 。 假设 向 量 在 内 
存 中 线性 排列 ， 那 么 在 200 个 周期 内 能 进行 8 次 浮 点 运算 (4 次 乘法 ~ 加法)。 这 是 因为 一 次 内 存 
访问 取出 向 量 中 4 个 连续 的 字 。 因 此 ， 两 次 访问 能 取出 每 个 向 量 中 的 4 个 元 素 。 这 等 同 于 25 纳 
秒 进 行 一 次 浮 点 运算 ， 或 40 MFLOPS 的 最 大 速度 。 把 块 大 小 从 1 个 字 增 加 到 4 个 字 并 没有 改变 
内 存 系统 的 延 信 时间。 但是， 这样 把 带宽 提高 4 倍 。 在 这 种 情况 下 ， 虽然 点 积 算法 没有 数据 重 
用 ,但 内 存 系统 带宽 的 提高 加 快 了 运算 速度 . 

快速 估算 性 能 界限 的 另 一 种 方法 是 估算 高 速 缓 存 的 命中 率 ， 用 它 来 计算 每 个 字 的 平均 访 
问 时 间 ， 并 将 此 时 间 与 基本 算法 的 浮 点 运算 速度 相 联 系 。 例 如 ， 在 这 个 神子 中 ， 算 法 要 求 每 

访问 8 个 数据 需要 访问 2 次 DRAM (高 速 缓存 失误 )。 这 对 应 于 高 速 缓存 命中 率 75%。 假 设 最 主 
要 的 时 间 开 销 由 高 速 缓存 失误 造成 ， 那 么 由 失误 造成 的 平均 内 存 访 问 时 间 就 是 100 纳 秒 的 25% 
(或 25 纳 秒 / 字 )。 由 于 点 积 对 每 个 字 有 一 次 运算 , 同 前 面 一 样 ,这 与 计算 速度 40 MFLOPS 对 应 。 
这 个 速度 的 更 精确 估计 将 计算 出 平均 内 存 访问 时 间 为 0.75 x 1+0.25 x 100=25.75 纳 秘 / 字 ， 对 应 
的 计算 速度 为 38.8 MFLOPS， 加 


从 物理 上 讲 ， 例 2.4 的 情况 对 应 与 多 个 存储 区 相连 接 的 宽 数据 总 线 (4 个 字 或 128 和 位 )。 实 
际 上 ， 构 建 这 么 宽 的 总 线 代 价 昂贵 、 在 更 切实 可 行 的 系统 中 ， 得 到 第 一 个 字 后 ， 连 续 的 字 在 
紧 接 着 的 总 线 周 期 里 被 送 到 内 存 总 线 。 例 如 ， 若 数据 总 线 为 32 位 ， 第 一 个 字 在 100 纳 秒 的 丐 迟 
后 被 送 到 内 存 总 线 ， 其 后 每 个 总 线 周 期 送信 总 线 一 个 字 。 这 样 计算 方法 与 上 面 所 讲 的 略 有 不 
同 ， 因 为 整个 高 速 缓存 行 在 100+3 x (内 存 总 线 周 期 ) 纳 秒 后 才 可 用 。 如 果 数 据 总 线 以 200 MHz 
运行 ， 高 速 缓存 行 的 访问 时 间 就 增加 15 纳 种 。 这 并 没有 显著 地 改变 执行 速度 的 限制 。 

上 面 的 例子 清楚 地 说 明 增加 带宽 对 提高 峰值 计算 速度 的 影响 。 对 程序 员 来 说 这 些 例子 所 
作假 设 也 非常 重要 。 对 数据 的 布局 作 这 样 的 假设 ， 内 存 中 连续 的 数据 字 被 连续 的 指令 使 用 。 





换 名 话说， 如 有 以 计算 为 中 心 ， 那 么 就 有 内 存 访 问 的 空间 本 地 性 〈spatial locality )。 如 果 以 数 
据 布局 为 中 心 ， 那 么 计算 按 这 样 的 顺序 ， 连 续 的 计算 需要 连续 的 数据 。 如 果 计 算 (或 访问 模 
式 ) 不 具有 空间 本 地 性 ， 那 么 有 效 带 宽 就 会 比 最 大 带宽 小 得 多 。 

下 面 的 例子 讲述 了 这 样 的 存储 模式 ， 秽 密 和 矩阵 以 行为 主 的 方式 存储 在 内 存 中 ， 但 是 按 列 
的 方式 读 出 。 编 译 器 可 以 对 计算 进行 重新 组 织 ， 充 分 利用 空间 本 地 性 以 达到 好 的 效果 。 


例 2.5 跨 距 访 问 的 影响 


考察 下 面 的 代码 段 : 

] for {i = 0; i < 1000; i++) 

2 column sum{[i] = 0.0; 

3 for (了 9 = 0; j < i1000; j++) 

4 column sum[i] += bf] [i]; 


该 段 代码 对 矩阵 b 的 列 求 和 , 把 所 得 的 结果 送 到 向 量 column_sum 中 。 从 中 可 以 看 出 两 点 : 
(i) 向 量 column_sum 很 小 ， 很 容易 放 到 高 速 缓存 中 ; (ii) 如 图 2-2a 所 示 ， 按 列 顺 序 访问 和 矩 
阵 b。 对 于 一 个 以 列 为 主 存储 的 1000 x 1000 的 矩阵 ， 这 意味 着 要 访问 每 一 起 第 1000 个 数据 . 
因此 ， 从 内 存 中 取出 的 每 个 高 速 缓存 行 中 的 数据 只 有 一 个 字 被 用 到 。 因 此 ， 上 面 代码 段 的 性 


能 很 差 。 图 
J). 9. 央 尖 区 有 了 | 
贸 : 口 口 口 : 量 : DD: 吐 : 口 口 : 哺 : 口 品 呈 口 :时 : DOUOn: :WB: = : 口 
国 口 口 口 : 硬 : , 口 重 口 口 : 折 : 。 口 口 硬 品 :三 ， 日 口 口 量 : Mm: oO: 
者 口 口 口 :多 : DDO Mm DONO B: DOOD Mm: 0: 
量 : 口 口 口 出 口罩 口 口 : 吕 : 口 口 量 口 痢 : OOD  :O: 

在 b 二 b A b .A b 
a) 以 列 为 主 的 数据 访问 
一 本- 喘 - 般 - 偶 一 = 图 DOODO = 口 口 口 口 口 = 口 口 口 口 口 = 口 
口 口 口 口 一 策 - 才 - 呈 - 量 -~ 图 口 口 口 口 D DODODDD 口 
口 口 口 口 口 口 口 口 四 口 口 口 口 口 
口 口 口 口 口 口 口 口 口 口 口 口 一 和 -是 - 量 - 二 -~ 国 
A b A b A b 起 b 
b) 以 行为 主 的 数据 访问 


图 2-2 问 量 与 矩阵 相 乘 : a) 列 与 列 相 乘 ， 保 留 运行 中 的 和 ; 
b) 计算 矩阵 每 一 行 与 向 量 的 点 积 作为 结果 的 元 素 


上 面 的 例子 说 明 跨 距 访问 的 缺点 ( 跨 距 大 于 1)。 计 算 中 空间 本 地 性 的 缺少 会 导致 内 存 系 
统 性 能 变 差 。 通 常 对 计算 重新 组 织 就 能 消除 跨 距 访问 。 在 以 下 例子 中 ， 可 重 写 循环 。 


例 2.6 消除 跨 距 访问 
考察 下 面 重组 后 的 列 求 和 代码 段 : 


1 for (i = 0; i < 1000; i++) 

2 column sum[i] = 0.0; 

3 for (j = 0; j < 1000; j++) 

4 for {i = 0; i < 1000; i++) 

5 column_ sum[il += b[j} [i]; 


住 本 例 中 ， 和 矩阵 按 行 序 遍历 ， 如 图 2-2 b 所 示 。 然 而 ， 读 者 会 发 现 ， 该 代码 段 依靠 通过 循 
环 在 高 速 缓存 中 保留 向 量 column_sum。 对 这 样 一 个 特例 来 说 ， 这 样 的 假设 是 合理 的 。 如 果 
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向 量 更 大 ， 就 必须 将 揭 代 空间 分 成 多 个 块 ， 然 后 一 次 计算 一 个 块 的 乘积 ， 这 个 概念 称 之 为 干 
铺 (tiling) 迭代 空间 。 如 何 改善 这 个 循环 的 性 能 留 给 读者 作为 习题 。 | 


下 一 个 问题 是 ， 我 们 是 否 已 解决 了 由 内 存 延 迟 及 带宽 造成 的 问题 ? 在 过 去 几 十 年 里 ， 处 
理 器 的 最 高 速度 显著 提高 ， 但 内 存 延 迟 及 带宽 未 能 跟 上 处 理 器 的 步伐 。 对 普通 计算 机 来 说 ， 
峰值 FLOPS 速 度 与 峰值 内 存 带 宽 之 比 介 于 1 MFLOPS/MB (该 比率 指 峰值 FLOPS 每 兆 字 节 / 秒 
带宽 ) 到 100 MFLOPS/MB 之 间 ， 大 规模 向 量 超级 计算 机 的 这 个 比值 较 低 ， 而 基于 快速 微 处 理 
器 的 计算 机 的 比值 较 高 。 这 个 数字 说 明 ， 一 个 字 被 取 到 完全 带宽 存储 器 (通常 为 LI 高 速 缓存 ) 
后 ,平均 必须 重用 100 次 才能 使 处 理 器 达到 最 大 利用 率 。 这 里 ， 完 全 带宽 定义 为 一 个 计算 达到 
它 的 处 理 器 的 限制 时 所 需 的 数据 传输 速度 。 

本 节 中 一 系列 例子 说 明 以 下 几 个 概念 : 

* 利用 应 用 程序 的 空间 本 地 性 与 时 间 本 地 性 对 于 减少 内 存 延 迟 及 提高 有 效 内 存 带宽 非常 重要 。 

。 某 些 应 用 程序 具有 较 大 的 时 间 本 地 性 ， 因 此 更 能 承受 较 低 的 内 存 带宽 。 计 算 次 数 与 内 存 

访问 次 数 的 比 是 一 个 很 好 的 预测 内 存 带宽 的 承受 程度 的 指标 。 

* 内 存 的 布局 以 及 合理 组 织 计算 次 序 能 对 空间 本 地 性 和 时 间 本 地 性 产生 重大 影响 。 


2.2.3 躲避 内 存 延 迟 的 其 他 方法 


如 果 在 网 络 传输 高 峰 期 浏览 网 页 ， 对 浏览 器 的 响应 不 足 ， 可 以 使 用 下 面 的 三 种 简单 方法 
之 一 来 缓解 : (i) .预测 要 浏览 的 网 页 ， 并 提前 发 送 请 求 ; (ii) 打开 多 个 浏览 器 ， 在 每 个 浏览 
器 中 访问 不 同 的 网 页 ， 这 样 当 等 待 某 个 页 面 载 入 时， 可 以 先 看 其 他 的 页 面 (这 ) 一 次 访问 
多 个 页 面 一 一 在 多 个 访问 中 分 排 延 迟 。 第 一 种 方法 称 为 预 取 (prefetching )， 第 二 种 方法 称 为 
多 线程 《multithreading ) ， 第 三 种 方法 与 访问 内 存 时 的 空间 本 地 性 有 关 。 在 这 三 种 方法 中 ,前 
面 已 经 讨论 过 内 存 访问 的 空间 本 地 性 。 这 里 只 介绍 预 取 和 多 线程 两 种 点 避 延 迟 的 方法 。 


1. 多 线程 躲避 延迟 
线程 是 程序 流程 中 的 单一 控制 流 。 下 面 是 一 个 解释 线程 的 简单 例子 : 


例 2.7 和 矩阵 乘法 的 线程 执行 
下 面 的 代码 段 将 一 个 n x n 的 矩阵 与 向 量 b 相 乘 得 到 向 量 c。 


l for (i = 0; i < n;: i++) 
2 cli] = dot product (get row(a, i), b); 


该 代码 将 c 中 的 每 一 个 元 素 作为 a 中 相应 行 与 向 量 c 的 点 积 。 由 于 每 一 个 点 积 是 相互 独立 
的 ， 可 以 表示 为 并 发 的 执行 单元 。 可 以 安全 地 改写 代码 如 下 : 


| for (i = 0; i < n; i++) 
2 cli} = create thread(dot product, get rowl(la, i), b); 


两 段 代码 的 唯一 区 别 是 ， 后 者 明确 指定 每 一 次 点 积 计算 为 一 个 线程 。( 在 第 7 章 会 讲 到 许 
多 指定 线程 的 API， 这 里 只 是 从 字面 意义 上 选择 了 一 个 创建 线程 的 函数 名 称 . ) 下 面 ， 考 察 函 
数 dot_product 的 每 一 次 执行 ， 它 的 第 一 次 执行 要 访问 两 个 向 量 元 素 并 等 待 它们 。 同 时 ， 
图 数 的 第 二 次 执行 能 在 下 一 个 周期 内 访问 另 两 个 向 量 元 素 ， 依 此 类 推 。 经 过 ! 时 间 单 元 后 (1 
指 内 存 系统 的 延迟 )， 第 一 次 执行 从 内 存 中 得 到 了 所 需 的 数据 ， 并 能 执行 需要 的 计算 。 在 下 一 
个 周期 ， 第 二 次 执行 所 需 的 数据 到 达 ， 等 等 。 据 此 可 知 ， 在 每 个 时 钟 周 期 都 能 进行 计算 。 图 





例 2.7 的 执行 调度 是 根据 两 个 假设 判定 的 : 内存 系 统 能 够 为 多 个 已 提出 的 请 求 服务 ， 并 且 
处 理 器 能 够 在 每 个 周期 内 切换 线程 。 此 外 ， 它 还 要 求 程序 能 够 以 线程 的 形式 显 式 指定 并 发 。 
多 线程 处 理 器 能 够 维持 多 个 计算 线程 的 上 下 文 以 及 已 提出 的 多 个 请 求 (内 存 访问 、 输 入 /输出 
或 通信 请 求 等 )， 并 在 请 求 误 足 时 执行 它们 。 像 HEP 以 及 Tera 这 样 依赖 多 线程 的 计算 机 ， 它 们 
能 够 在 每 一 个 周期 切换 执行 的 上 下 文 。 因 此 它们 能 有 效 地 躲避 延迟 ， 前 提 是 并 发 (线程 ) 足 
够 多 ， 使 处 理 右 不 会 空间 。 并 发 与 延迟 之 间 的 平衡 在 本 书 的 其 他 许多 章 还 会 讲 到 。 


2. 用 预 取 躲 避 延 迟 
在 典型 程序 中 ， 数 据 项 在 很 小 的 时 间 段 被 载 和 并 由 处 理 器 使 用 。 如 果 载 人 导致 高 速 缓存 
不 命中 ， 那 么 处 理 器 就 不 能 使 用 数据 。 解 决 它 的 一 个 简单 方法 是 : 将 载 入 操作 提前 ， 即 使 高 
速 缓存 没有 命中 ,数据 多 半 也 能 在 用 到 的 时 候 到 达 。 然 而 ， 如 泉 数 据 项 在 载 和 和 使 用 之 间 的 
时 间 间 隔 内 被 覆盖 ， 就 必须 重新 发 出 载 人 指令 。 注 意 这 种 情况 不 比 没有 提前 载 入 的 情形 更 差 。 


对 此 技巧 的 仔细 研究 表明 ， 预 取 与 多 线程 的 工作 目的 相似 。 在 将 载 人 提前 时 ， 必 须 将 没有 资 


源 相关 性 (即使 用 相同 的 寄存 器 ) 的 独立 执行 的 线程 与 其 他 的 线程 区 别 开 来 。 许 多 编译 器 都 
竟 力 将 载 人 提前 ， 以 屏蔽 内 存 延 迟 。 
例 2.8 通过 预 取 躲 避 延 迟 

考虑 用 一 个 for 循 环 将 向 量 a 与 b 相 加 。 在 循环 第 一 次 选 代 时 ， 处 理 器 需要 a[0] 与 b[ 0]， 
由 于 这 两 个 数 不 在 高 速 缓存 中 ， 处 理 器 必须 承受 内 存 延迟 。 请 求 满足 后 ， 处 理 器 也 需要 af 
与 bpU1]。 假 定 每 个 请 求 都 只 占用 一 个 周期 (1 纳 秒 ) ， 内 存 请 求 在 100 纳 秒 后 得 到 满足 ， 那 么 
在 100 个 这 样 的 请 求 之 后 内 存 系统 就 能 返回 第 一 批 数据 项 。 其 后 ， 每 个 周期 都 会 返回 一 对 向 量 
元 素 。 这 样 ， 在 接 下 来 的 每 个 周期 里 都 能 进行 一 次 加 法 运算 ， 处 理 器 周期 也 不 会 浪费 了 。 各 


2.2.4 多 线程 与 预 取 间 的 权衡 


虽然 看 上 去 所 有 与 内 存 系统 性 能 相关 的 问题 都 可 以 通过 多 线程 与 预 取 来 解决 ， 这 两 种 方 
法 还 是 会 受到 内 存 带宽 的 很 大 影响 。 


例 2.9 带宽 对 多 线程 程序 的 影响 


假设 茶 一 计算 机 ， 有 具有 1 GHz 时 钟 频率 的 处 理 器 ，4 个 字 的 高 速 缓存 行 ， 访 问 高 速 缓存 需 
要 一 个 周期 ，DRAM 的 延迟 为 100 纳 秒 。 该 计算 机 进行 计算 时 访问 1 KB 高 速 绿 存 的 命中 率 为 
25%， 访 问 32 KB 的 命中 率 为 90% 。 考 虑 两 种 情况 : 第 一 ， 单 一 线程 执行 ， 整 个 高 速 缓存 都 可 
用 来 存放 串 行 的 上 下 文 ; 第 二 ，32 线 程 执行 ， 每 个 线程 有 1 KB 的 高 速 缓存 驻 留 。 如 果 计 算 在 
每 1 纳 秒 的 周期 都 有 一 个 数据 请 求 ， 则 第 一 种 情况 下 ， 对 DRAM 的 带宽 需求 为 每 10 纳 秒 1 个 字 ， 
因为 其 他 的 字 都 从 高 速 缓存 中 取得 (90% 的 高 速 缓存 命中 率 )。 这 对 应 于 400 MB/s 带 宽 。 第 二 
种 情况 下 ， 对 DRAM 的 带宽 需求 提高 到 每 个 线程 的 每 4 个 周期 3 个 字 (25% 的 高 速 缓 存 命中 率 )。 
如 采 所 有 的 线程 都 呈现 相同 的 高 速 缓存 行为 ， 则 这 种 情况 对 应 于 0.75 字 / 纳 秒 ， 或 3 GB/s。 国 


例 2.9 说 明 一 个 重要 的 问题 ， 即 由 于 每 个 线程 中 具有 较 小 的 高 速 缓存 驻 留 ， 多 线程 系统 的 
带宽 需求 显著 增加 。 在 这 个 例子 中 ， 维 持 在 400 MB/s 的 DRAM 带 宽 是 合理 的 ， 而 3 GB/s 则 是 
当前 大 多 数 系统 能 够 提供 的 。 从 这 个 意义 上 说 ， 多 线程 系统 成 为 带宽 的 限制 而 不 是 延迟 的 限 





18 种 2 生 


制 。 应 该 认识 到 ， 多 线程 和 预 取 只 是 用 来 解决 延迟 问题 ， 而 它们 通常 会 使 带宽 问题 加 剧 。 

另 一 个 问题 与 有 效 使 用 多 线程 和 预 取 所 需 的 额外 硬件 资源 有 关 。 考 虑 一 种 对 寄存 器 进行 
10 次 提前 载 入 的 情况 。 这 样 的 载 和 需要 10 个 自由 的 寄存 器 。 如 果 茶 一 干扰 指令 覆盖 寄存 器 ， 
就 要 重新 载 人 数据 。 同 不 用 预 取 的 情 次 相 比 ， 这 不 会 增加 任何 更 多 的 取 数 延迟 。 但 是 ， 我 们 
对 同一 数据 项 取 两 次 ， 对 内 存 系统 的 带宽 需求 就 会 增加 两 倍 。 这 种 情况 与 例 2.9 所 示 的 由 于 高 
速 缓存 限制 所 造成 的 情形 相似 。 用 更 大 的 寄存 器 文件 与 高 速 缓存 来 实现 多 线程 和 预 取 能 减少 
这 种 情况 的 出 现 。 


2.3 并 行 计算 平台 剖析 


上 面 几 节 讨论 了 影响 串 行 或 隐 式 并 行程 序 性 能 的 许多 因素 。 当 前 微 处 理 器 的 峰 值 性 能 与 
持续 性 能 之 间 越 来 越 大 的 差距 、 内 存 系统 性 能 的 影响 以 及 许多 问题 的 分 布 式 特性 ， 成 为 突出 
的 并 行 化 的 推动 因素 。 下 面 开 始 在 更 高 层次 上 介绍 一 些 并 行 计算 平台 的 元 素 ， 它 们 对 面向 性 
能 的 以 及 可 移植 的 并 行 编程 来 说 都 非常 重要 。 为 促进 对 并 行 平台 性 能 的 讨论 ， 我 们 首先 对 并 
行 平 台 的 物理 及 逻辑 组 织 作 一 个 剖析 。 逻 辑 组 织 是 指 程序 员 眼 中 的 平台 ， 而 物理 组 织 指 的 则 
是 平台 的 实际 硬件 组 织 。 在 程序 员 眼 里 ， 表 达 并 行 任务 的 方法 以 及 指定 任务 间 相 互 作 用 的 机 
制 ， 是 并 行 计 算 的 两 个 重要 组 成 部 分 。 前 者 有 时 称 为 控制 结构 ， 而 后 者 称 为 通信 模型 。 


2.3.1 并 行 平台 的 控制 结构 ， 


z 加， 在 下 入 下 
都 可 看 作 一 个 并 行 任务 。 在 另 一 个 极端 ， 程 序 中 一 些 单独 的 指令 也 可 以 看 作 一 个 并 行 任务 ， 
在 这 两 个 极端 之 间 ， 存 在 着 一 系列 用 来 指定 程序 榨 制 结构 的 模型 ， 以 及 支持 这 些 模型 相应 的 
体系 结构 。 


例 2.10 ”多 处 理 器 上 单 指 令 的 并 行 性 
考察 下 面 两 个 向 量 相 加 的 代码 段 : 


1] for (Ts 0; i < 1000; i++) 
2 CIil = ai + bfi]:， 


在 这 个 例子 中 ， 循 环 中 的 每 次 色 代 都 相互 独立 ， 即 cI0]=a[0]+b[0]; c[1]=a[l1]+b[1]; 
等 等 ， 都 可 能 相互 独立 地 执行 。 因 此 ， 如 果 存 在 执行 同样 指令 的 机 制 ， 在 本 例 中 是 在 所 有 的 
处 理 器 上 将 相应 的 数据 相 加 ， 就 能 更 快 地 执行 循环 。 四 加 

并 行 计算 机 的 处 理 器 可 以 在 单一 控制 部 件 的 集中 控制 下 运行 ， 也 可 以 独立 运行 。 在 称 为 
单 指令 流 多 数据 流 (single iastruction stream, multiple data stream, SIMD ) 的 结构 中 ， 单 一 控 
制 部 件 向 每 个 处 理 部 件 分 派 指 令 。 图 2-3 a 说 明 一 个 典型 的 SIMD 体 系 结构 。 在 SIMD 并 行 计算 
机 中 ， 同样 的 指令 被 所 有 的 处 理 部 件 同时 执行 。 在 例 2.10 中 ，ada 指 令 被 分 派 到 所 有 处 理 器 中 ， 
并 由 这 些 处 理 器 并 发 执行 。 一 些 最 早 的 并 行 计算 机 ， 如 Illiac IV、 MPP、DAP、CM-2 以 及 
MasPar MP-1 都 属于 这 种 类 型 。 最 近 ， 这 种 类 型 的 一 些 变 体 用 到 了 协 处 理 器 部 件 中 ， 如 Intel 
处 理 器 的 MMX 部 件 以 及 Sharc 中 的 DSP 芯 片 等 。 带 有 SSE ( 流 SIMD 扩展 ) 的 Intel 奔腾 处 理 
营 提 供 了 多 条 指令 ， 能 够 对 多 个 数据 项 执行 同样 的 指令 。 这 些 体系 结构 增强 依赖 于 一 些 基 本 
计算 (如 图 像 、 图形 处 理 ) 的 高 度 结构 化 性 质 ， 以 获得 改进 的 性 能 。 
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a) b) 


图 2-3 a) 典型 的 SIMD 体 系 结构 b) 典型 的 MIMD 体 系 结构 


虽然 SIMD 很 适合 用 来 对 数组 这 样 的 并 行 数据 结构 进行 结构 化 计算 ， 但 经 常 需要 有 选择 地 
关闭 对 某 些 数据 项 的 操作 。 因 此 ， 绝 大 多 数 SIMD 编 程 模式 允许 “操作 屏蔽 码 *， 这 是 一 种 与 
每 个 数据 项 相关 的 二 进 制 屏蔽 码 ， 用 于 指定 数据 项 是 否 参 与 运算 。 一 些 基本 的 条 件 语句 ， 如 
where (condition) then <stmnt> <elsewhere stmnt>， 用 于 支持 选择 执行 。 条 
件 执行 会 降低 SIMD 处 理 器 的 性 能 ， 使 用 时 一 定 要 小 心 。 

与 SIMD 体 系 结构 形成 对 照 ， 如 果 计 算 机 中 的 每 个 处 理 器 都 能 够 独立 于 其 他 处 理 器 执行 不 
同 的 程序 ， 就 称 为 多 指令 流 多 数据 流 (multiple instruction stream， multiple data stream, MIMD ) 
计算 机 。 图 2-3 b 描绘 一 个 典型 的 MIMD 计 算 机 。 该 模型 的 一 种 简单 的 变形 ， 称 为 单程 序 多 数据 
(single program multiple data,SPMD ) 模型 ， 用 同一 程序 的 多 个 实例 在 不 同 数 据 上 执行 。 容 易 看 
出 SPMD 模 型 与 MIMD 模 型 具有 同样 的 表现 形式 ， 因 为 多 个 程序 的 每 一 个 都 能 用 任务 标识 符 指 
定 的 条 件 插入 到 一 个 大 的 计 else 块 中 。 许 多 并 行 平台 都 使 用 SPMD 模 型 ， 该 模型 需要 的 体系 结构 
支持 也 最 小 。 这 样 的 平台 包括 Sun Ultra Server、 多 处 理 器 PC、 工 作 站 机 群 以 及 IBM SP 等 。 

SIMD 计 算 机 比 MIMD 计 算 机 需要 的 硬件 更 少 ， 因 为 SIMD 计 算 机 只 有 一 个 全 局 控制 部 件 。 
和 而且， 因为 SIMD 计 算 机 只 需 存储 程序 的 一 个 副本 ， 它 需要 更 少 的 内 存 。 对 比 之 下 ，MIMD 计 
算 机 要 在 每 个 处 理 器 上 存储 程序 及 安装 操作 系统 。 然 而 ， 用 SIMD 处 理 器 作为 通用 的 计算 引擎 
却 没 有 流行 ， 这 是 由 SIMD 专 门 的 硬件 体系 结构 、 经 济 因 素 、 设 计 限制 、 产 品 的 生命 期 以 及 应 
用 程序 的 特点 所 决定 的 。 相 反 ， 支 持 SPMD 模 式 的 平台 却 可 以 用 现成 的 元 件 以 及 相对 少 的 投入 


很 快 制造 出 来 。SIMD 计 算 机 的 设计 需要 投入 大 量 的 人 力 物 力 ， 导 致 其 开发 周期 很 长 。 由 于 串 ， 


行 处 理 器 发 展 很 快 ，SIMD 计 算 机 面临 很 快 过 时 的 危险 。SIMD 体 系 结构 也 不 太 适合 许多 具有 
不 规则 特性 的 应 用 程序 。 下 面 的 例 2.11 说 明 ， 在 条 件 执行 时 ，SIMD 体 系 结构 将 造成 很 低 的 次 
源 利用 率 。 
例 2.11 在 SIMD 体 系 结构 上 执行 条 件 语句 

考察 图 2-4 所 示 的 条 件 语 句 执行 。 图 2-4 a 中 的 条 件 语句 分 两 步 执行 。 在 第 一 步 ， 所 有 
8 = 0 的 处 理 器 执行 指令 C = 4， 所 有 其 他 的 处 理 器 空闲 。 在 第 二 步 ， 指 令 的 “else” 部 分 








(C = 4/B) 被 执行 ， 第 一 步 时 激活 的 处 理 器 此 时 变 成 空 亲 的 。 这 说 明 SIMD 体 系 结构 的 一 个 缺 
点 。 | 





第 二 步 
b) 
图 2-4 在 4 个 处 理 器 的 SIMD 计 算 机 上 执行 条 件 语 名 : 
a) 条 件 语 句 ; b) 语句 在 两 步 内 执行 


2.3.2 并 行 平台 的 通信 模型 


并 行 任务 间 有 两 种 主要 的 数据 交换 方式 一 访问 共享 数据 空间 以 及 交换 消息 。 


1. 共享 地 址 空间 平台 
共享 地 址 空间 ”是 指 并 行 平台 支持 一 个 公共 的 数据 空间 ， 所 有 处 理 器 都 能 访问 该 空间 。 
处 理 器 通过 修改 存储 在 共享 地 址 空间 的 数据 来 实现 交互 。 支 持 SPMD 编 程 的 共享 地 址 空间 平台 


w 





也 称 为 多 处 理 器 (multiprocessor)。 共 享 地 址 空间 的 内 存 可 以 是 本 地 的 《处理 器 独占 )， 也 可 
以 是 全 局 的 (对 所 有 处 理 器 公用 )。 如 果 处 理 器 访问 系统 中 任何 内 存 字 (全 局 或 本 地 ) 的 时 间 
都 相同 ， 平 台 就 归 类 为 一 臻 内存 访问 (uniform memory access, UMA) 多 计算 机 。 田 一 方面 ， 
如 果 访 问 某 些 内 存 字 的 时 间 长 于 其 他 内 存 字 的 访问 时 间 ， 平 台 就 称 为 非 一 致 内 存 芒 问 (non- 
uniform memory access, NUMA ) 多 计算 机 。 图 2-5 a 和 2-5 b 展示 UMA 平 台 ， 而 图 2-$ c 展示 
一 种 NUMA 平 台 。 图 2-5 b 中 的 一 个 例子 非常 有 趣 。 在 这 个 例子 中 ， 访 问 高 速 缓存 中 的 内 存 字 
要 比 访问 内 存 地 址 快 ， 但 它 仍然 分 类 为 UMA 体 系 结构 ， 因 为 目前 所 有 的 微 处 理 器 都 有 高 速 组 
存 的 层次 结构 。 因 此 ， 如 果 考 虑 高 速 缓 存 访问 时 间 ， 即 使 单 处 理 器 也 不 会 归 类 到 UMA。 基 于 
这 个 原因 ,NUMA 与 UMA 体 系 结构 的 定义 根据 的 只 是 内 存 访问 时 间 而 不 是 高 速 缓 存 访问 时 间 。 
像 SGI Origin 2000 服 务 器 Sun Ultra HPC 服 务 器 这 样 的 计算 机 属于 NUMA 多 处 理 器 这 一 类 。 区 
别 UMA 和 NUMA 平 台 很 重要 。 如 果 访 问 本 地 内 存 比 访问 全 局 内 存 便宜 ， 算 法 就 必须 构造 本 地 
性 、 结 构 化 数据 以 及 相应 的 计算 等 。 

全 局 内 存 空 间 的 存在 使 得 在 这 样 的 平台 上 编程 要 简单 得 多 。 所 有 只 读 的 操作 对 程序 员 来 
说 是 不 可 见 的 ， 因 为 编写 这 些 代 码 与 编写 串 行 程序 没有 什么 区 别 。 这 就 大 大 减轻 了 写 并 行程 
序 的 负担 。 但 起 ， 读 /号 操作 比 只 读 操 作 更 难 编程 ， 因为 这 种 操作 的 并 发 访问 是 互 斥 的 。 所 以 ， 
像 线 程 (POSIX，NT) 或 指令 (OpenMP ) 这 样 的 共享 地 址 空间 编程 模式 采用 锁 及 其 他 相关 
的 机 制 来 支持 同步 。 








图 2-5 典型 的 共享 地 址 空间 结构 : a) 一 致 内 存 访问 共享 地 址 空间 计算 机 ; 
b) 带 有 高 速 缓存 及 内 存 的 一 致 内 存 访问 共享 地 址 空间 计算 机 ; 
c) 只 带 本 地 内 存 的 非 -一致 内 存 访问 共享 地 址 空间 计算 机 


处 理 器 上 高 速 缓存 的 出 现 也 提出 了 同时 由 两 个 或 更 多 处 理 器 操作 的 单个 内 存 字 的 多 副本 
问题 。 以 这 种 情况 支持 共享 地 址 空间 涉及 两 个 重要 任务 : 提供 在 系统 中 查找 内 存 字 地 址 的 转 
换 机 制 ， 以 及 保证 对 同一 内 存 字 的 多 个 副本 的 并 发 操作 有 很 好 定义 的 语义 。 后 者 也 称 为 高 速 
组 他 一 致 性 (cache coherence) 机 制 。 这 种 机 制 以 及 它 的 应 用 在 2.4.6 节 有 更 详细 的 介绍 。 支 
持 高 速 缓存 一 致 性 需要 相应 的 硬件 支持 。 因 此 ， 一 些 共享 地 址 空间 计算 机 只 支持 单个 地 址 转 
换 机 制 ， 把 保证 一 致 性 的 任务 留 给 程序 员 。 这 种 平台 的 编程 包含 一 些 如 get 和 put 这 样 的 基本 语 
句 。 这 些 基 本 语句 允许 处 理 器 获取 (或 放置 ) 存储 在 远程 处 理 器 上 的 变量 。 然 而 ， 如 果 变 量 
的 副本 之 一 改变 了 ， 其 他 的 副本 不 能 自动 地 更 新 或 失效 。 

共享 地 址 空间 与 共享 内 存 计 算 机 是 两 个 常见 的 ， 但 又 常 被 误解 的 术语 ， 理 解 它们 的 区 别 
假 重 要 。 共 享 内 存 计算 机 这 个 术语 从 历史 上 说 ， 指 的 是 内 存在 物理 上 被 多 个 处 理 器 共享 的 一 
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种 体系 结构 ， 即 每 个 处 理 器 对 任意 的 内 存 段 有 同等 的 访问 权 。 它 和 上 面 讲 到 的 UMA 模 型 相同 。 
分 布 式 内 存 计算 机 正好 与 之 相反 ， 不 同 的 内 存 段 物理 上 与 不 同 的 处 理 器 对 应 。 共 享 内 存 或 分 
布 式 内 存 计算 机 的 剖析 属于 计算 机 的 物理 组 织 范畴 ， 在 2.4 节 作 更 详细 讨论 。 无 论 是 共享 内 存 
还 是 分 布 式 内 存 的 物理 模型 ， 都 提供 了 不 相交 或 共享 地 址 空间 平台 的 逻辑 视图 。 分 布 式 内 存 
共享 地 址 空间 计算 机 与 NSUMA 计 算 机 相同 。 

2. 消息 传递 平台 

从 计算 机 逻辑 观点 上 说 ， 消 息 传递 平台 由 p 个 处 理 节点 构成 ， 每 个 节点 都 有 自己 的 独立 地 
址 空间 。 每 个 处 理 节 点 可 以 是 单一 处 理 器 ， 也 可 以 是 共享 地 址 空间 的 多 处 理 器 ， 而 后 者 在 现 
代 消 息 传递 并 行 计算 机 中 正 呈 现 快速 增长 的 趋势 。 很 自然 ， 这 样 观点 的 实例 来 自 工作 站 机 群 
和 非 共 享 地 址 空间 多 计算 机 。 在 这 样 的 平台 上 ， 运 行 在 不 同 节点 上 的 进程 之 间 的 交互 必须 用 
消息 来 完成 ， 这 也 是 消息 传递 (message passing) 这 个 名 称 的 由 来 。 这 种 消息 交换 用 来 传送 
数据 、 操 作 以 及 使 多 个 进程 间 的 行为 同步 。 按 这 种 最 常见 的 形式 ， 消 息 传递 模式 支持 在 p 个 节 
点 的 每 一 个 上 执行 一 个 不 同 的 程序 。 

由 于 交互 是 通过 发 送 及 接收 消息 完成 的 ， 这 种 编程 模式 的 基本 操作 为 send 和 receive 
(相应 的 调用 在 不 同 的 API 之 间 可 能 会 不 同 ， 但 语义 大 体 相 同 )。 另 外 ， 由 于 发 送 和 接收 操作 必 
须 指定 目标 地 址 ， 必 须 有 一 个 机 制 ， 来 分 配 唯一 的 ID 给 每 个 执行 并 行程 序 的 进程 。 这 种 ID 通 
常 通过 像 whoami 之 类 的 函数 提供 给 程序 ， 该 函数 对 调用 进程 返回 ID。 通 常 还 有 一 个 函数 用 
来 完成 消息 传递 的 基本 操作 一 一 numprocs ， 它 给 出 参与 操作 的 进程 总 数 。 有 了 这 4 种 基本 的 
操作 ， 就 能 写 出 任意 的 消息 传递 程序 。 不 同 的 消息 传递 API， 例 如 消息 传递 接口 (MPI) 及 并 
行 虚拟 机 (PVM) ， 支 持 这些 基 本 操作 和 许多 用 不 同 函 数 名 的 更 高 层次 的 功能 。 支 持 消息 传递 
模式 的 并 行 平台 包括 [BM SP、SGI Origin 2000 以 及 工作 站 机 群 。 

在 有 P 个 节点 的 共享 地 址 空间 计算 机 上 ， 很 容易 模拟 含有 同样 节点 个 数 的 消息 传递 体系 结 
构 。 假 设 是 单一 处 理 器 节点 ， 通 过 将 共享 地 址 空间 分 割 成 p 个 不 相交 的 分 区 ， 并 独占 地 向 每 个 
处 理 器 分 配 一 个 这 样 的 分 区 ， 就 能 实现 这 种 模拟 。 然 后 ， 处 理 器 就 能 通过 向 其 他 处 理 器 的 分 
区 写 人 信息 或 者 读 出 信息 来 send 或 receive 消 息 ， 当 完成 读 出 或 写 人 操作 后 ， 再 用 适当 的 同步 
原 语 告知 它 的 通信 对 方 。 然 而 ， 在 消息 传递 计算 机 上 模拟 共享 地 址 空间 体系 结构 代价 很 高 ， 
因为 访问 其 他 节点 的 内 存 需要 发 送 和 接收 信息 。 


2.4 ”并行 平台 的 物理 组 织 


本 节 将 研究 并 行 计 算 机 的 物理 体系 结构 。 首 先 从 理想 的 体系 结构 出 发 ， 概 述 与 实现 这 种 
模型 相关 的 实际 困难 ， 并 讨论 一 些 常见 的 体系 结构 。 


2.4.1 理想 并 行 计算 机 的 体系 结构 


串 行 计算 模型 (随机 访问 计算 机 或 RAM ) 的 一 种 自然 扩展 包含 p 个 处 理 器 以 及 大 小 不 受 限 
制 的 全 局 内 存 ， 所 有 处 理 器 同样 可 以 访问 该 内 存 。 所 有 处 理 器 访问 同样 的 地 址 空间 ， 共 享 一 
个 公用 的 时 钟 ， 但 在 每 个 周期 内 可 以 执行 不 同 的 指令 。 这 种 理想 的 模型 也 称 为 并 行 随机 访问 
填 工 机 〈parallel random access machine, PRAM )。 由 于 PRAM 人 允许 对 不 同 内 存单 元 进行 并 发 
访问 ， 依 据 如 何 处 理 对 内 存 的 同时 访问 ，PRAM 可 分 为 四 小 类 ; 





1) 互 斥 读 互 斥 写 (EREW) PRAM。 这 一 类 的 PRAM 独 占 访问 内 存单 元 ， 不 允许 并 发 的 
读 写 操 作 。 这 是 一 种 最 弱 的 PRAM 模 型 ， 对 内 存 访问 提供 最 小 的 并 发 性 。 
2) 并 发 读 互 斥 写 (CREW ) PRAM。 这 种 类 型 允许 对 内 存单 元 多 读 ， 但 对 内 存 位 置 多 写 
是 串 行 的 。 
3) 互 斥 读 并 发 写 (ERCW) PRAM。 对 内 存单 元 允许 多 写 访问 ,但 多 读 访 问 是 串 行 的 。 
4) 并 发 读 并 发 写 (CRCW) PRAM。 对 内 存单 元 允许 多 读 多 写 。 这 是 最 强大 的 PRAM 模 
型 。 
允许 并 发 读 访 问 不 会 造成 程序 中 语义 上 的 不 一 致 。 然 而 ， 对 内 存单 元 并 发 写 却 需要 进行 
仲裁 。 有 几 种 协议 用 来 解决 并 发 写 的 问题 。 最 常用 的 几 种 协议 如 下 : 
。 共 有 “(common )， 如 果 处 理 器 试图 写 的 所 有 值 都 相同 ， 则 允许 并 发 写 。 
* 任意 (arbitrary )， 任 一 处 理 器 可 以 进行 写 操作 ， 而 其 余 的 处 理 器 则 不 行 。 
“优先 级 (priority )， 处 理 器 按 预定 义 的 优先 级 列表 排列 、 最 高 优先 级 的 处 理 器 可 以 进行 
写 操作 而 其 他 的 处 理 器 不 能 。 
。 求 和 (sum)， 所 有 量 的 总 和 被 写 入 (基于 求 和 的 写 冲 突 解决 模型 能 够 扩展 到 任意 由 待 
写 入 量 定 义 的 相关 操作 符 上 )。 
理想 模型 的 体系 结构 复杂 性 
考虑 将 EREW PRAM 作 为 具有 p 个 处 理 器 及 m 个 字 的 全 局 内 存 的 共享 内 存 计算 机 来 实现 
这 些 处 理 器 通过 一 系列 开关 连接 到 内 存 上 。 这 些 开 关 决 定 了 由 每 个 处 理 器 访问 的 内 存 字 。 在 
EREW PRAM 中 ， 如 果菜 一 内 存 字 没 有 同时 被 多 个 处 理 器 访问 ， 则 p 个 处 理 器 中 的 任何 一 个 都 
可 以 访问 任何 内 存 字 。 为 保证 这 样 的 连通 性 ， 开 关 总 数 必须 是 B(mp) 个 。( 附 录 中 有 关于 @ 的 
解释 . ) 如 果 内 存 大 小 可 观 ， 构 造 这 样 复杂 度 的 开关 网 络 就 会 花 很 高 的 代价 。 因 此 ，PRAM 计 
算 模 型 在 现实 中 不 可 能 实现 的 。 


2.4.2 并 行 计算 机 互连网 络 


互连网 络 提供 多 个 处 理 节点 之 间或 处 理 器 与 内 存 模块 之 间 的 数据 传输 的 机 制 。 互 连 网 络 
的 号 盒 视图 由 "个 输入 及 mm 个 输出 构成 。 输 出 个 数 不 一 定 和 输入 个 数 相 同 。 通 常 互连网 络 由 链 
路 和 开关 构成 。 链 路 指 的 是 像 导 线 或 光纤 这 样 能 够 携带 信息 的 物理 介质 。 许 多 因素 会 影响 链 
路 的 特性 。 由 于 链 路 基于 导电 介质 ， 导 线 之 间 的 电容 耦合 限制 了 信号 传播 的 速度 。 电 容 粳 合 
和 信和 己 强 度 襄 减 是 链 路 长 度 的 国 数 。 

互连网 络 分 为 静态 (static) 和 动态 (dynamic) 两 种 。 静 态 网 络 由 处 理 节点 间 的 点 对 点 通 
信和 链 路 构成 ， 也 称 为 直接 网 络 。 动 态 网 络 由 开关 及 通信 和 链 路 构成 ， 由 开关 在 处 理 节点 和 存储 
区 之 问 建立 通道 来 动态 实现 通信 链 路 间 的 互 连 。 动 态 网 络 也 称 为 非 直 接 (indirect) 网 络 。 图 
2-6 a 列 出 一 个 简单 的 含 4 个 处 理 器 或 节点 的 静态 网 络 ， 每 个 处 理 节点 通过 一 个 网 络 接口 在 格 
网 结构 中 与 另 两 个 节点 相连 。 图 2-6 b 列 出 一 个 含 4 个 节点 的 动态 网 络 ， 其 节点 通过 开关 网 络 
与 其 他 市 点 相连 。 

互 接 网 络 中 的 开关 由 一 _ 组 输入 及 输出 端口 构成 。 开关 能 提供 一 系列 的 功能 。 开 关 的 最 小 
“功能 是 提供 从 输入 到 输出 端口 间 的 映射 。 一 个 开关 中 端口 的 总 数 也 称 为 该 开关 的 度 (degree)。 
开关 还 能 提供 对 内 部 缓冲 ( 当 请 求 的 输出 端口 忙 时 )、 路 由 选择 (减少 网 络 拥塞 ) 以 及 多 点 传 
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播 (对 多 个 端口 的 同样 输出 ) 等 的 支持 。 从 输入 端口 到 输出 端口 的 映射 可 以 通过 多 种 机 制 获 
得 ,这些 机 制 基于 物理 交叉 开关 、 多 端口 内 存 、 多 路 转 接 器 -多 路 分 解 句 以 及 多 路 复 用 总 线 等 。 
开关 的 成 本 受 映射 硬件 成 本 、 外 围 设备 硬 件 以 及 包装 成 本 的 影响 。 通 常 ， 映 射 硬件 按 开关 的 
度 的 平方 增长 ， 外 围 硬 件 与 度 线性 相关 ， 而 包装 成 本 与 管 脚 的 个 数 线性 相关 。 


静 念 网 络 非 肯 接 网 络 





网 络 接口 / 开关 
a) 
图 2-6 互连网 络 的 分 类 : a) 静态 网 络 ; b) 动态 网 络 


方 尽 与 网 络 间 的 连通 性 由 网 络 接 口 提供 。 网 络 接口 的 输入 与 输出 端口 使 数据 向 网 络 流 入 
和 流出 。 通 常 ， 网 络 接口 还 有 如 下 功能 : 数据 封装 ， 计 算 路 由 选择 信息 ， 对 流入 及 流出 的 数 
据 进行 缓冲 以 便 网 络 速度 和 处 理 器 相 匹配 ， 以 及 错误 检测 等 。 处 理 器 与 网 络 间 的 接口 的 位 置 
也 很 重要 。 普 通 网 络 接口 挂 起 输入 /输出 总 线 ， 而 高 度 耦 合 的 并 行 计 算 机 挂 起 内 存 总 线 。 由 于 
答 入 /输出 总 线 通 常 比 内 存 总 线 慢 ， 后 者 能 提供 更 高 的 带宽 。 


2.4.3 ”网络 拓扑 结构 


互连网 络 中 使 用 了 各 种 各 样 的 拓扑 结构 。 这 些 结构 用 来 实现 成 本 及 可 扩展 性 与 性 能 间 的 
平衡 。 单 纯 的 拓扑 结构 具有 很 有 趣 的 数学 特性 ， 而 在 实际 的 互连网 络 中 用 到 的 拓扑 是 纯粹 拓 
扑 结构 的 组 合 或 修改 。 


1. 基于 总 线 的 网 络 

基于 总 线 的 网 络 可 能 是 最 简单 的 网 络 ， 它 包含 一 个 所 有 节点 公用 的 共享 介质 。 总 线 具 有 
所 需 的 特性 ， 即 总 线 的 成 本 与 节点 数目 p 是 线性 关系 。 通 常 这 种 成 本 与 总 线 接口 有 关 。 此 外 ， 
网 络 中 任意 两 个 节点 间 的 距离 是 常数 (CO(1) )。 总 线 对 于 在 节点 间 广 播 信息 也 是 理想 的 。 由 于 
传输 介质 是 共享 的 ， 与 点 对 点 信息 传输 相 比 ， 广 播 占 用 很 小 的 系统 开销 。 然 而 ， 当 节点 数目 
增多 时 ， 总 线 上 有 限 的 带宽 限制 了 网 络 的 整体 性 能 。 通 常 基于 总 线 的 计算 机 的 节点 数目 限制 
在 数 十 个 以 内 。Sun Enterprise 服务 器 以 及 基于 Intel 奔腾 处 理 器 的 共享 总 线 多 处 理 器 就 是 采用 
这 种 体系 结构 的 例子 。 

对 于 一 般 的 程序 来 说 ， 大 多 数 访问 的 数据 对 节点 是 本 地 的 ， 利 用 这 个 性 质 可 以 降低 对 总 
线 带 宽 的 需求 。 对 于 这 样 的 程序 ， 可 以 为 每 个 节点 提供 高 速 缓存 。 私 有 数据 存放 在 节点 的 高 
速 缓存 中 ， 只 有 远程 数据 才 通 过 总 线 存 取 。 
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图 2-7 基于 总 线 的 互 连 : a) 没有 本 地 高 速 缓存 ; 
b) 具有 本 地 内 存 /高 速 缓存 


例 2.12 ”用 高 速 缓存 减少 共享 总 线 的 带宽 


在 图 2-7a 中 ，p 个 处 理 器 共享 到 内 存 的 总 线 。 如 果 每 个 处 理 器 访问 k 个 数据 项 ， 每 次 数据 访 
问 需要 te 时 间 ， 那 么 执行 时 间 的 下 界 为 tuee x kp 秒 。 下 面 考察 图 2-7b 的 硬件 结构 。 假 设 50% 
的 内 存 访问 (0.5k) 为 本 地 数据 。 这 些 本 地 数据 位 于 处 理 器 的 私有 内 存 中 。 再 假设 访问 本 地 内 
存 的 时 间 与 访问 全 局 内 存 的 时 间 相 同 ， 即 是 toce。 在 这 种 情况 下 ， 总 执行 时 间 的 下 界 为 0.5 x 
foyae x 大 + 0.5 x toye x kp。 这 里 ， 第 一 项 是 访问 本 地 数据 的 时 间 ， 第 二 项 是 访问 共享 数据 的 时 
间 。 很 容易 看 出 ， 当 p 变 大 时 ， 按 图 2-7b 的 结构 ， 访 问 时 间 的 下 界 逼 近 0.5 x to x kp。 与 图 
2-7a 相 比 ， 执 行 时 间 下 界 提高 50%。 是 


在 实际 应 用 中 ， 共 享 数 据 与 私有 数据 是 以 更 复杂 的 方式 处 理 的 。 在 2.4.6 市 将 与 高 速 缓存 
一 致 性 一 起 简要 讨论 这 个 问题 。 


2. 交叉 开关 网 络 

如 图 2-8 所 示 ， 用 排 成 网 格 形 的 一 组 开关 或 开关 节点 ， 可 以 很 简单 地 将 p 个 处 理 器 与 bp 个 存 
储 区 连接 。 交 叉 开 关 网 络 是 一 种 非 拥塞 网 络 ， 连 接 一 个 处 理 节 点 与 存储 区 不 会 拥塞 其 他 任何 
处 理 节 后 与 存储 区 之 间 的 连接 。 
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图 2-8 连接 P 个 处 理 器 和 2 个 存储 区 的 完全 非 拥塞 交叉 开关 网 络 


要 实现 这 样 的 网 络 ， 需 要 的 开关 节点 总 数 为 B(pb)。 可 以 做 出 这 样 合理 的 假设 : 存储 区 4 


的 数目 至 少 为 p; 否则 ， 在 任意 时 刻 ， 就 会 有 一 些 处 理 节点 不 能 访问 任何 存储 区 。 因 此 ， 当 p 


增 大 时 ， 开 关 网 络 的 复杂 性 (组件 数目 ) 以 Q(p”) 增 大 (附录 中 有 关于 的 解释 )。 当 处 理 节点 
很 多 时 ， 开 关中 的 元 件数 目 很 多 ， 很 难 实现 高 的 数据 传输 速度 。 因 此 ， 从 成 本 的 角度 上 讲 ， 
交叉 开关 网 络 的 可 扩展 性 不 好 。 


3. 多 级 网 络 

交叉 开关 网 络 就 性 能 而 言 是 可 扩展 的 ， 但 就 成 本 而 言 却 又 不 是 可 扩展 的 。 相 反 ， 共 享 总 
线 网 络 在 成 本 上 可 扩展 但 在 性 能 上 不 可 扩展 。 在 此 两 种 极端 之 间 ， 有 一 种 折 中 的 网 络 ， 称 为 
多 级 互连网 络 (multistage interconnection network)。 它 比 总 线 网 络 在 性 能 方面 可 扩展 性 强 ， 
又 比 交 又 开关 网 络 在 成 本 上 可 扩展 性 强 。 

图 2-9 为 包含 p 个 处 理 节点 和 6b 个 存储 区 的 多 级 网 络 示意 图 。omega 网 络 是 一 种 常用 的 多 级 
互连网 络 ， 该 网 络 的 级 数 为 log p，p 是 输入 (处理 节 点 ) 的 数目 ， 也 是 输出 (存储 区 ) 的 数目 。 
omega 网 络 的 每 一 级 都 含有 一 种 互 连 模式 ， 连 接 p 个 输入 和 p 个 输出 。 如 果 下 式 成 立 ， 则 在 输入 
i 和 输出 j 之 间 存 在 一 条 链 路 : 

1= {2 OKigp/2-1 | 
2i+1l—p, p/2&<i&p-!1 (2-1) 


公式 (2-1) 代 表 从 二 进 制 表示 的 i 获得 j 的 左旋 操作 。 这 种 互 连 模 式 也 称 为 完全 混 洗 
(perfect shuffle )。 图 2-10 是 含有 8 个 输入 和 输出 的 完全 混 洗 互 连 模式 示意 图 。 在 omega 网 络 的 
每 一 级 ， 完 全 混 洗 互 连 模式 送 人 p/2 个 开关 或 开关 节点 中 。 每 个 开关 的 连接 方式 有 两 种 。 一 种 
是 输入 直接 传送 到 输出 处 ， 如 图 2-11a 所 示 。 这 种 方式 称 为 直通 式 (pass-through) 连接 。 另 
一 种 方式 是 跨 接 开关 节点 输入 ， 然 后 再 送出 ， 如 图 2-11b 所 示 。 这 种 方式 称 为 跨 接 (cross- 
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图 2-9 一 种 典型 的 多 级 互连网 络 示 意图 


000 0 一 一 0 000 = }eft_rotate(000) 
001 | i 001 = 1eft_rotate(100) 
010 2 2 010 = teft_rotate(001) 
O11 3 3 011 =1ieft_rotate(101) 
100 4 4 100= left_rotate(010) 
101 5 5 101 = jeft_rotate(110) 
i110 6 6 110= left rotate(011) 
111 了 一 一 11=)eft rotate(11l1) 


图 2-10 含 8 个 输入 和 输出 的 完全 混 洗 互 连 


omega 网 络 含 p/2 x log p 个 开关 节点 ， 网 络 成 本 随 @(plog p) 增加 。 注 意 这 个 成 本 低 于 完全 
交 又 开关 网 络 的 B@(p”)。 图 2-12 所 示 为 含 8 个 处 理 器 (以 左边 的 二 进 制 数 表 示 ) 和 8 个 存储 区 
(以 布 边 的 二 进 制 数 表示 ) 的 omega 网 络 。omega 网 络 中 的 数据 选 路 用 一 种 简单 的 方案 来 完成 。 
设 s 为 需要 写 数 据 到 存储 区 :的 处 理 器 的 二 进 制 表示 。 数 据 穿 过 链 路 到 达 第 一 个 开关 节点 。 如 果 
s 和 1 的 最 高 有 效 位 相同 ， 那 么 开关 就 会 按 直通 式 方式 进行 数据 选 路 ; 如 果 最 高 有 效 位 不 同 ， 
则 以 跨 接 方式 进行 数据 选 路 。 在 下 一 个 开关 级 ， 再 使 用 下 一 个 最 高 有 效 位 来 重复 同样 的 方案 。 
穿越 1og p 级 开关 要 使 用 s 和 t 的 二 进 制 表 示 中 的 所 有 log p 个 位 。 


和 村 


a) 直通 式 b) 跨 接 式 
图 2-11 2 x 2 开关 的 两 种 开关 结构 
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图 2-12 连接 8 个 输入 和 输出 的 完全 omega 网 络 


图 2-13 中 显示 omega 网 络 中 ， 从 2 号 处 理 器 (010) 到 7 号 存储 区 (111)， 以 及 从 6 号 处 理 
问 《110) 到 4 号 存储 区 (100) 的 数据 路 由 选择 。 当 2 号 处 理 器 (010) 和 7 号 存储 区 (111) 通 
信 时 ， 阻 塞 6 号 处 理 器 (110) 对 4 号 存储 区 (100) 的 通道 。 通 信 链 路 AB 由 两 个 通信 通道 使 用 。 
因此 ， 在 omega 网 络 中 ， 某 一 处 理 器 对 某 一 存储 区 的 访问 可 能 不 允许 其 他 处 理 器 对 其 他 存储 
区 的 访问 。 有 具有 这 种 性 质 的 网 络 称 为 阻塞 网 络 (blocking network )。 


000 000 
001 ~ 001 
010 010 
011 011 





图 2-13 omega 网 络 中 的 阻塞 实例 : 一 个 信息 (010 到 111 或 110 到 100) 在 链 路 AB 处 阻塞 
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a) b) 


图 2-14 a) 8 个 节点 的 全 连接 网 络 ; b) 9 个 节点 的 星 形 连接 网 络 
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4. 全 连接 网 络 
在 全 连接 网 络 (completely-connected network) 中 ， 每 个 节点 到 其 他 所 有 节点 都 存在 直接 


通信 链 路 。 图 2-14a 便 是 有 8 个 节点 的 全 连接 网 络 。 在 这 种 网 络 中 ， 任 两 个 节点 间 通 信 链 路 的 
存在 使 得 每 个 节点 只 需 一 步 就 能 向 另 一 个 节点 传送 信息 ， 在 这 个 意义 下 这 是 理想 的 网 络 。 全 
连接 网 络 是 交叉 开关 网 络 的 静态 对 应 网 络 ， 因 为 在 这 两 种 网 络 中 ， 任 意 输入 /输出 对 之 间 的 通 
信和 都 不 会 阻塞 其 他 任何 对 乙 同 的 通信 。 

5. 星 形 连 接 网 络 

住 星 形 连接 网 络 (star-connected network) 中 ， 某 一 处 理 器 作为 中 央 处 理 器 。 其 他 的 每 个 
处 理 右 有 一 条 通信 和 链 路 与 中 央 处 理 器 相连 。 图 2-14b 便 是 有 9 个 节点 的 星 形 连 接 网 络 。 星 形 连 
接 网 络 与 基于 总 线 的 网 络 类 似 。 任 一 对 处 理 器 间 的 通信 通过 中 央 处 理 器 选择 路 由 ， 类 似 在 基 
于 总 线 的 网 络 中 共享 总 线 构成 所 有 通信 闻 的 媒介 一 样 。 中 央 处 理 器 是 星 形 结构 的 瓶颈 。 


6. 线性 阵列 、 格 网 和 k-d 格 网 

由 于 全 连接 网 络 中 的 链 路 太 多 ， 通 常 采 用 稀 琉 网 络 来 构造 并 行 计算 机 。 线 性 阵列 和 超 立 
方 体 体 束 属于 这 种 稀疏 网 络 。 线 性 阵列 是 一 种 静态 网 络 ， 它 的 每 个 节点 〈 除 了 两 个 端 节点 ) 
有 两 个 邻居 节点 ， 一 个 在 左边 ， 一 个 在 右边 。 环 或 1 维 环绕 (图 2-15b) 是 线性 阵列 (图 2-15a ) 
的 简单 扩展 。 环 在 线性 阵列 的 两 端 间 具 有 回 绕 连 接 。 这 种 情况 下 每 个 节点 有 两 个 邻居 。 


A OO OO) 


a) 无 回 绕 链 路 b) 有 回 绕 链 路 
图 2-15 线性 阵列 





a) b) c) 


图 2-16 2 维 与 3 维 格 网 : a) 无 问 绕 2 维 格 网 ，b) 有 同 绕 链 路 的 
2 维 格 网 (2 维 环线 ); c) 无 占线 3 维 格 网 


图 2-16a 所 示 的 2 维 格 网 是 线性 阵列 的 2 维 的 扩展 。 每 个 维 有 Vp 个 节点 ， 每 个 节点 用 二 元 
组 (i, 有) 标识 。 除 了 边界 节点 外 、 每 个 节点 同上 、 下 、 左 、 有 方向 的 4 个 节点 相连 。2 维 格 网 
可 以 放 在 2 维 平面 上 ， 从 布线 的 角度 来 看 ， 这 种 网 络 颇具 吸引 力 。 此 外 ,许多 常规 结构 的 计算 
很 自然 地 与 2 维 格 网 对 应 。 因 此 ， 并 行 计算 机 通常 采用 2 维 格 网 式 互 连 。 如 果 用 回 绕 链 路 将 2 维 
任 网 扩大 ， 就 得 到 如 图 2-16b 所 示 的 2 维 环绕 。 将 2 维 格 网 推广 到 3 维 ， 就 得 到 如 图 2-16c 所 示 的 
3 维 立 方 体 。 除 了 边界 上 的 节点 外 ，3 维 立方 体 中 的 每 个 节点 都 和 6 个 其 他 的 节点 相连 ， 每 维 2 
个 。 许 多 在 并 行 计 算 机 上 执行 的 物理 仿真 (如 3 维 气象 建 模 、 结 构建 模 等 ) 都 能 自然 地 映射 为 
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3 维 网 络 拓扑 结构 。 因 此 ，3 维 立方 体 通常 用 在 并 行 计 算 机 的 互连网 络 中 (如 用 于 Cray T3E 
中 )。 
k-d 格 网 指 的 是 一 种 拓扑 结构 ， 它 有 d 维 ， 每 一 维 上 有 Kk 个 节点 。 线 性 阵列 构成 x-d 格 网 的 
一 个 极端 ， 另 一 种 称 为 超 立 方 体 的 有 趣 拓扑 结构 构成 另 一 极端 。 超 立方 体 结构 有 log p 维 ， 在 
每 一 维 上 有 两 个 节点 。 超 立方 体 结构 的 构造 如 图 2-17 所 示 。0 维 超 立 方 体 有 2" 个 节点 ， 也 就 是 ! 
个 节点 。 将 两 个 0 维 超 立 方 体 相 连 就 得 到 了 1 维 超 立方 体 ; 4 个 节点 的 2 维 超 立 方 体 由 两 个 1 维 超 
立方 体 连接 相应 节点 构成 。 一 般 而 言 ，4d 维 超 立方 体 由 连接 两 个 (d-1) 维 超 立 方 体 的 相应 节点 
构成 。 图 2-17 展 示 16 个 节点 的 4 维 超 立方 体 的 构成 。 






() 


1 0] 


0 维 超 立 方 体 ”1 维 起立 方 体 2 维 超 立方 体 


4 维 超 立 方 体 


图 2-17 从 低 维 超 立 方 体 构建 高 维 超 立方 体 


从 超 立 方 体 中 导出 节点 的 编号 方式 很 有 用 。 简 单 的 编号 方式 可 以 从 超 立 方 体 的 构造 得 出 。 
如 图 2-17 所 示 ， 如 果 有 两 个 包含 p/2 个 节点 的 子 立 方 体 的 编号 ， 那 么 就 可 以 通过 给 菜 个 子 立 方 
体 加 一 个 “0” 在 前 面 ， 给 另 一 个 子 立方 体 加 一 个 “1” 在 前 面 ， 得 到 含 p 个 节点 的 立方 体 的 纺 
号 方式 。 这 种 编号 方式 具有 一 种 有 用 的 特性 ， 即 两 个 节点 间 的 最 小 距离 可 以 通过 两 个 标号 不 
同 的 位 数 得 出 。 例 如 ， 标 号 0110 的 节点 和 标号 0101 的 节点 相隔 两 个 链 路 ， 因 为 它们 有 两 个 位 
L41| 不同 。 这 种 特性 可 用 来 从 超 立 方 体 体系 结构 导出 许多 并 行 算法 。 
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7. 基于 树 的 网 络 

树 网 络 (tree network ) 是 指 网 络 中 任意 一 对 节点 间 只 存在 一 条 通路 的 网 络 。 线 性 阵列 和 
星 形 连 接 网 络 都 是 树 网 络 的 特例 。 图 2-18 中 所 示 为 基于 完全 二 又 树 的 网 络 。 静 态 树 网 络 在 树 
的 每 个 节点 都 有 处 理 器 (图 2-18 a)。 树 网 络 也 有 动态 的 形态 。 在 动态 树 网 络 中 ， 中 间 层 的 节 
氮 为 交换 方 点 ， 叶 子 节点 是 处 理 器 (图 2-18 b )。 


( ) 处 理 节点 
| |] 开关 节点 
a) 静态 树 网 络 b) 动态 树 网 络 


图 2-18 完全 二 又 树 网 络 


要 实现 在 树 中 的 信息 选 路 ， 源 节点 必须 沿 树 向 上 送信 息 ， 直 到 信息 到 达 包 含 源 节点 和 目 
的 下 点 的 最 小 子 树 的 根 节点 ， 然 后 信息 涪 树 向 下 选 路 ， 直 到 到 达 目 的 节点 。 

树 网 络 在 树 的 较 高 层 中 存在 通信 瓶颈 。 例 如 ， 当 一 个 节点 左边 子 树 的 许多 节点 与 右边 子 
树 的 节点 通信 时 ， 根 节点 必须 处 理 所 有 的 信息 。 在 动态 网 络 中 ， 可 以 通过 增加 通信 和 链 路 ， 以 
及 增加 更 接近 根 节点 的 交换 节点 的 个 数 ， 来 减少 这 种 瓶颈 。 这 种 动态 网 络 称 为 胖 树 (fat tree )， 
如 图 2-19 所 示 。 





”图 2-19 含 16 个 处 理 节点 的 胖 树 网 络 


2.4.4 静态 互连网 络 评价 


下 面 将 讨论 描述 静态 互连网 络 成 本 和 性 能 的 各 种 标准 。 我 们 用 这 些 标准 来 评价 上 一 小 节 
讲 到 的 静态 网 络 。 

直径 网络 中 任意 两 个 处 理 节点 之 间 的 最 长 距离 称 为 网 络 直 径 (diameter)。 两 个 处 理 节 
点 间 的 距离 定义 为 它们 间 的 最 短路 径 ( 用 链 路 数目 表示 )。 全 连接 网 络 的 直径 是 1; 星 形 连接 
网 络 的 直径 是 2， 环 形 网 络 的 直径 是 |p/21; 无 回 绕 连 接 的 2 维 网 络 中 ， 对 角 线 相对 角 上 的 两 个 
太 扩 的 直径 为 2VP -D; 环绕 格 网 的 直径 为 2| Vp /2]; 超 立 方 体 连 接 的 网 络 由 于 两 个 节点 的 
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标号 至 多 在 log p 个 位 置 可 能 会 不 同 ， 其 直径 为 log p; 完全 二 又 树 的 直径 为 2 log((p+1)/2)， 因 
为 两 个 通信 节点 可 能 处 于 根 节 点 的 不 同 子 树 上 ， 一 条 信息 可 能 必须 先 上 行 到 根 节 点 ， 然 后 再 
下 行 到 男 一 子 树 。 

连通 性 ”连通 性 (connectivity ) 是 网 络 中 任意 两 个 节点 间 路 径 多 重 性 的 度量 。 网 络 的 高 
连通 性 是 希望 达到 的 ， 因 为 这 样 才能 减少 通信 资源 的 争 用 。 连 通 性 的 一 个 度量 是 将 一 个 网 络 
分 为 两 个 不 连通 网 络 需 要 删 去 的 最 少 绝 数目 。 这 也 称 为 弧 连 通 性 (arc connectivity )。 对 于 线 
性 阵列 、 树 以 及 星 形 网 络 ， 弧 连通 性 是 1。 无 回 绕 2 维 格 网 的 弧 连 通 性 是 2; 2 维 环绕 格 网 的 连 
通 性 是 4; ，d 维 超 立 方 体 的 弧 连 通 性 是 d，。 

对 分 宽度 及 对 分 带宽 。 网 络 的 对 分 宽度 (bisection width) 是 把 网 络 分 为 两 个 相等 网 络 时 
必须 删 去 的 最 小 通信 和 链 路 的 数目 。 环 形 网 络 的 对 分 宽度 是 2， 因 为 只 要 删 去 两 个 通信 和 链 路 ， 就 
能 把 网 络 分 为 两 个 。 同 样 ， 无 回 绕 连接 的 含 p 个 节点 的 2 维 格 网 的 对 分 宽度 为 YP ，2 维 回 绕 连 
接 为 2Vp 。 树 形 连接 和 星 形 连 接 网 络 的 对 分 宽度 为 1， 而 全 连接 网 络 为 p4。 超 立方 体 的 对 分 
宽度 可 以 从 它 的 构造 导出 。 将 两 个 (d-1) 维 的 超 立 方 体 的 相应 链 路 连接 ， 得 到 一 个 d 维 超 立方 
体 。 由 于 两 个 子 立 方 体 含 有 24-0 或 p/2 个 节点 ， 至 少 p/2 个 通信 链 路 必须 越过 超 立方 体 的 任 一 划 
分 才能 把 超 立 方 体 分 割 成 两 个 子 立方 体 (习题 2.15 )。 

能 够 越过 连接 两 个 节点 链 路 同时 进行 通信 的 位 数 称 为 通道 宽度 (channel width )。 通 道 宽 
度 等 于 每 个 通信 链 路 中 物理 线路 的 数目 。 单 一 物理 线路 能 够 传送 位 的 峰值 速度 称 为 通道 速度 
(channel rate )。 两 个 通信 和 链 路 端点 之 间 能 够 传送 数据 的 峰值 速度 称 为 通道 带宽 。 通 道 带 宽 是 
通道 速度 和 通道 宽度 的 乘积 。 

表 2-1 连接 p 个 节点 的 静态 网 络 特性 一 览 表 


网 络 直 径 对 分 宽度 流连 通 性 成 本 〈 链 路 数目 ) 
全 连接 | P214 p-1 ~ pp-1)/2 
是 形 2 1 1 p-1 
完全 : 叉 树 2log((p+1)/2) 1 l D-] 
线性 阵列 p-l ] ] P-1 
尤 问 线 2 维 格 网 2p -1) yp 2 2(p ~ yp) 
2 维 环绕 格 网 2| yp ?| -2Jp 4 2p 
超 立 方 体 logp pl2 logp (p log p)/2 
器 绕 k 元 d 立 方 体 dlk/2| 2k! 2d dp 


对 分 网 络 任何 两 半 之 间 允 许 的 最 小 通信 和 量 称 为 对 分 带宽 ， 它 是 对 分 宽度 和 通道 宽度 的 乘 
积 。 网 络 对 分 带宽 有 了 时 也 称 为 截面 带宽 《cross-section bandwidth )。 

成 本 评价 网 络 的 成 本 有 多 种 标准 ， 其 中 的 标准 之 一 是 网 络 中 所 需 的 通信 和 链 路 的 数量 或 线 
路 数量 。 线 性 阵列 和 树 仅 用 p-1 个 链 路 连接 p 个 节点 。d 维 环绕 格 网 有 dp 个 链 路 ， 而 超 立方 体 连 
接 网 络 有 (p log P)/2 个 链 路 。 

网 络 的 对 分 带宽 也 可 用 作成 本 的 评价 标准 ， 因为 它 提供 2 维 封装 中 的 面积 下 界 或 3 维 封装 
中 的 体积 下 界 。 如 果 网 络 的 对 分 带宽 为 w， 则 2 维 封装 中 的 面积 下 界 为 8(w”) ， 而 3 维 封装 中 的 
体积 下 界 为 9(w?2) 。 根 据 这 个 标准 ， 超 立 方 体 和 全 连接 网 络 比 其 他 网 络 的 成 本 更 高 。 

表 2-1 列 出 各 种 静态 网 络 的 不 同 特性 ， 这 些 特性 突出 显示 不 同 网 络 间 的 性 能 价格 比 权衡 ， 
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2.4.5 动态 互连网 络 评价 


动态 网 络 的 许多 评价 标准 由 相应 的 静态 评价 标准 得 出 。 由 于 信息 经 过 开关 时 ， 开 关 必 须 
付出 开销 ， 人 们 很 自然 地 想到 除 本 来 的 处 理 世 点 外 ， 把 每 个 开关 看 作 网 络 中 的 节点 。 此 时 网 
络 直径 可 以 定义 为 网 络 中 任意 两 个 节点 间 的 最 大 距离 。 这 也 表示 信息 在 选择 的 一 对 节点 间 传 
送 时 所 达到 的 最 大 延迟 。 事 实 上 ， 我 们 希望 网 络 直 径 是 任意 两 个 处 理 节点 间 的 最 大 距离 ， 然 
而 ， 对 所 有 重要 的 网 络 而 言 ， 网 络 直径 等 同 于 任意 一 对 (处 理 或 开关 ) 节点 间 的 最 大 距离 。 

动态 网 络 的 连通 性 可 以 用 节点 或 边 的 连通 性 来 定义 。 节 点 连通 性 是 指 把 网 络 分 成 两 个 部 
分 必须 删 去 的 最 小 节点 数目 。 像 以 前 一 样 ， 这 里 只 考虑 开关 节点 (与 考虑 所 有 节点 不 同 )。 然 
而 ， 考 虑 所 有 节点 能 给 出 动态 网 络 路 径 多 重 性 的 很 好 的 近似 值 ， 网 络 的 弧 连 通 性 可 以 相似 地 
定义 为 将 网 络 分 成 两 个 不 可 及 的 部 分 必须 删 去 的 最 小 边 数 。 

动态 网 络 对 分 宽度 的 定义 必须 比 直径 和 连通 性 的 定义 更 准确 。 就 对 分 宽度 而 言 ， 我 们 要 
考虑 所 有 可 能 的 把 p 个 处 理 节点 分 割 成 两 个 相等 部 分 的 方法 。 注 意 这 里 并 没有 限制 分 割 开关 节 
后 。 对 每 个 这 样 的 分 割 ， 选 择 分 割 开 关节 点 的 方法 ， 使 得 穿 过 这 个 分 割 的 边 数 最 少 。 对 任何 
这 样 的 分 割 ， 边 的 最 小 数目 是 动态 网 络 的 对 分 宽度 。 对 分 宽度 的 另 一 直观 定义 是 把 网 络 分 成 
具有 相同 处 理 节 点 数目 的 两 半 需 要 删 去 的 最 小 边 数 。 我 们 用 下 面 的 例子 进一步 阐述 这 个 概念 。 


例 2.13 动态 网 络 的 对 分 宽度 


考察 图 2-20 所 示 的 网 络 。 图 中 有 3 个 对 分 A，B ，C， 每 个 对 分 都 把 网 络 分 成 两 个 含 两 个 处 
理 三 所 的 部 分 。 注意 ， 每 个 划分 不 需要 相等 地 划分 网 络 中 的 节点 。 在 本 例 中 ， 每 个 划分 都 导 
致 4 条 分 割 边 之 一 。 因 此 ， 该 图 的 对 分 宽度 为 4。 图 


动态 网 络 的 成 本 与 静态 网 络 一 样 ， 由 链 路 成 本 决定 ， 同 时 也 是 开关 成 本 。 在 常见 的 动态 
网 络 ， 开 关 的 度 为 常数 。 因 此 ， 链 路 及 开关 的 数目 也 差不多 相同 。 而 且 ， 在 常见 的 网 络 中 ， 
开关 成 本 高 于 链 路 成 本 。 因 此 ， 动 态 网 络 的 成 本 通常 由 网 络 中 的 开关 节点 数目 决定 。 

动态 网 络 的 各 种 性 质 总 结 于 表 2-2 中 。 





图 2-20 动态 网 络 的 对 分 宽度 计算 方法 : 从 处 理 节 点 的 各 个 相等 
划分 中 选择 越过 划分 的 最 少 边 数 。 在 本 例 中 ， 每 个 划分 
产生 4 条 分 割 边 之 一 。 因 此 这 个 图 的 对 分 宽度 为 4 
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表 2-2 连接 p 个 处 理 节点 的 动态 网 络 拓扑 结构 特性 一 览 表 


网 络 直 人生 对 分 宽度 焉 连通 性 成 本 〈 链 路 数目 ) 
交叉 开关 P I Pp 
omega 网 络 logp pi2 2 pi2 
动态 树 2logp | 2 pl 


2.4.6 多 处 理 器 系统 中 的 高 速 缓存 一 致 性 


互连网 络 提供 基本 的 消息 (数据 ) 通信 机 制 ， 而 共享 地 址 空间 计算 机 需要 其 他 的 硬件 才 
能 使 数据 的 多 个 副本 保持 一 致 。 如 果 存 在 某 一 数据 的 两 份 副本 (在 不 同 的 高 速 缓存 /内 存单 元 
中 )， 如 何 才 能 保证 不 同 的 处 理 器 按 预定 义 的 语义 对 这 两 份 数据 进行 处 理 ? 

保持 高 速 缓存 在 多 个 处 理 器 系统 中 的 一 致 要 比 在 单一 处 理 器 系统 中 复杂 得 多 。 这 是 因为 
除了 和 单 处 理 器 一 样 有 多 个 副本 外 ， 修 改 这 些 副本 的 处 理 器 可 能 会 有 多 个 。 考 虑 如 图 2-21 所 
示 的 简单 情况 。 两 个 处 理 器 Pp 和 Pi 通过 共享 总 线 连 接 一 个 全 局 可 存 取 的 内 存 。 两 个 处 理 器 加 
载 同样 的 变量 。 因 此 ， 就 有 变量 的 三 个 副本 。 现 在 ， 一 致 性 机 制 必须 保证 所 有 对 这 些 副本 的 
操作 是 串 行 的 〈 即 是 存在 与 并 行 调度 对 应 的 指令 执行 的 串 行 顺序 )。 当 处 理 器 修改 变量 的 一 个 
副本 时 必定 发 生 两 件 事情 之 一 : 要 么 必须 使 其 他 的 副本 无 效 ， 要 么 必须 使 其 他 的 副本 更 新 。 
如 果 做 不 到 这 一 点 ， 其 他 的 处 理 器 就 可 能 使 用 变量 的 错误 值 。 这 两 个 协议 称 为 无 效 
(invalidate ) 协议 和 更 新 (update ) 协议 ， 如 图 2-21a 和 b 所 示 。 


PO Pl PO . Pl 
load x load x write #3, Xx 





a) 无 效 协 议 
PO Pl 
write #3, x 





b) 共享 变量 的 更 新 协议 
图 2-21 多 处 理 器 系统 的 高 速 缓存 一 致 性 
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在 更 新 协议 中 ， 无 论 何 时 写 人 一 个 数据 项 ， 它 在 系统 中 的 所 有 副本 都 被 更 新 。 因 此 ， 如 
果 某 处 理 跨 只 读 了 … 次 数据 项 、 就 再 也 不 使 用 它 ， 那 么 ， 其 他 处 理 器 对 该 数据 项 的 更 新 将 会 
造成 多 余 的 开销 ， 如 源 延 迟 及 网 络 带 宽 。 另 一 方面 ， 在 这 种 情况 下 ， 无 效 协议 在 远程 处 理 比 
上 使 第 -次 更 新 过 的 数据 项 无 效 ， 以 后 对 该 数据 项 的 副本 就 不 需要 更 新 了 。 

男 一 个 影响 这 些 协 议 性 能 的 重要 因素 是 假 共享 (false sharing )。 假 共享 是 指 不 同 的 处 理 器 
更 新 相 问 高 速 缓存 行 中 不 同 部 分 的 情况 。 因 此 ， 虽 然 没有 对 共享 变量 进行 更 新 ， 但 系统 并 不 
进行 检测 。 在 无 效 协 议 中 ， 当 一 个 处 理 恰 更 新 它 的 高 速 缓存 行 它 自己 的 一 部 分 时 ， 行 中 其 他 
剧本 就 成 为 无 效 的 。 当 其 他 的 处 理 器 试图 更 新 高 速 缓存 行 中 它们 自己 的 一 部 分 时 ， 就 必须 从 
那个 远程 处 理 器 处 获得 行 。 容 易 看 出 ， 假 共享 会 造成 某 一 高 速 缓存 行 中 的 数据 在 不 同 的 处 理 
融 之 间 像 打 乒 乓 球 一 样 传 来 传 去 。 在 更 新 协议 中 ， 这 种 情况 要 稍微 好 一 些 ， 因 为 所 有 的 读 操 
作 都 可 以 本 地 进行 ， 而 写 操作 必须 更 新 。 这 样 就 节省 了 一 步 使 数据 无 效 的 操作 。 

无 效 和 更 新 方案 间 的 折 中 是 典型 的 通信 开销 (更 新 ) 及 空闲 (无效 时 停止 ) 间 的 折 中 。 
当前 的 高 速 缓存 一 致 性 计算 机 通常 依靠 无 效 协 议 。 接 下 来 的 有 关 多 处 理 器 高 速 缓存 系统 的 讨 
论 都 假设 用 无 效 协议 。 

用 无 效 协 议 维持 一 致 性 一 个 数据 项 的 多 个 副本 要 保持 一 致 ， 就 必须 留意 这 些 副 本 的 数量 
及 各 目的 状态 。 这 里 要 讨论 的 是 与 数据 项 相关 联 的 一 种 可 能 的 状态 集合 ， 以 及 在 这 些 状态 中 


能 触发 转换 的 事件 。 注意 状态 集合 和 转换 都 不 是 唯一 的 ， 可 以 定义 其 他 的 状态 以 及 相关 的 转 


换 。 

下 面 再 来 看 图 2-21 中 的 例子 。 开 始 时 ， 变 量 * 位 于 全 局 内 存 中 。 两 个 处 理 器 第 一 步 执行 对 
变量 加 载 的 操作 。 在 此 时 ， 变 量 的 状态 是 共享 的 ， 因 为 它 被 多 个 处 理 器 共享 。 当 处 理 器 Po 对 
变量 执行 存储 操作 时 ， 就 把 该 变量 的 所 有 副本 标记 为 无 效 。 它 还 必须 把 自己 拥有 的 变量 标记 
为 已 修改 或 脏 (dirty )。 这 样 做 是 为 了 保证 接 下 来 其 他 处 理 器 对 该 变量 的 访问 将 转向 Po 而 不 是 
内 存 。 在 此 时 ， 可 以 说 ， 处 理 器 Pi 又 一 次 执行 加 载 x 的 操作 。 处 理 器 Pi 试 图 取得 这 个 变量 ， 因 
为 变量 已 被 处 理 器 Po 标记 为 脏 ， 处 理 器 Po 对 请 求 提 供 服务 。 在 处 理 器 P1 及 全 局 内 存 中 变量 的 
副本 都 被 更 新 ， 变 量 重新 变 为 共享 状态 。 因 此 ， 在 这 个 简单 模型 中 ， 高 速 缓存 行经 历 三 个 状 
态 : 共享 、 无 效 以 及 脏 。 

图 2-22 是 简单 三 状态 协议 的 完全 状态 图 。 实 线 描述 处 理 器 操作 ， 虚 线 描述 一 致 性 操作 。 
例如 ， 当 处 理 器 对 无 效 块 执行 读 操作 时 ， 块 被 取出 ， 状 态 从 无 效 转换 为 共享 。 同 样 ， 如 果 一 
个 处 理 器 对 共享 块 执 行 写 操作 ， 一 致 性 协议 对 块 发 出 一 个 C_write (一 致 性 写 人 )。 这 样 将 触 
发 其 他 所 有 块 的 状态 由 共享 转换 为 无 效 。 


例 2.14 用 简单 三 状态 协议 维持 一 致 性 


考察 如 图 2-23 所 示 的 由 处 理 器 Po 和 Pi 执行 的 两 个 程序 段 。 系 统 除 在 处 理 器 Po 及 Pl 包含 本 地 
内 存 (或 高 速 缓存 ) 外 ， 还 包含 全 局 内 存 。 假 设 本 例 中 用 到 的 三 阶段 协议 与 图 2-22 所 示 的 状 
态 图 相间 。 系 统 中 的 高 速 缓存 行 的 状态 可 以 是 共享 的 、 无 效 的 或 脏 的 。 每 个 数据 项 (变量 ) 
假设 位 于 不 同 的 高 速 缓 存 行 中 。 开 始 时 ， 变 量 x 和 y 被 标记 为 脏 ， 这 两 个 变量 的 唯一 副本 位 于 
全 局 内 存 中 。 图 2-23 展 示 随 着 每 条 指令 的 执行 ， 变 量 状态 的 转换 以 及 变量 的 多 个 副本 值 的 改 
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图 2-22 简单 三 状态 一 致 性 协议 状态 图 
处 理 器 0 处 理 器 1 ”| 全 局 内 存 
1 
oi op 处 的 变量 | 处 的 变量 中 的 变量 
® 及 其 状态 | 及 其 状态 及 其 状态 
X= 5,D 
Y = 12, DD 


X= 5, S 





时 间 





y= 20,D {y= 13,I 






图 2-23 2.4.6 节 中 讨论 的 用 简单 三 状态 一 致 性 协议 的 并 行程 序 执行 实例 
可 以 用 各 种 硬件 机 制 一 一 侦 听 系统 、 基 于 目录 的 系统 以 及 两 者 的 结合 来 实现 一 致 性 协议 。 


1. 高 速 缓存 侦 听 系统 

侦 听 高 速 缓存 通常 与 基于 广播 互连网 络 的 多 处 理 器 系统 相关 ， 总 线 和 环 就 属于 这 样 的 广 
播 互连网 络 。 在 这 样 的 系统 中 ， 所 有 处 理 器 都 侦 听 (监视) 总 线 事务 。 这 样 处 理 器 就 能 对 它 
的 高 速 缓存 块 做 状态 转换 。 图 2-24 所 示 为 一 典型 的 基于 总 线 的 侦 听 系统 。 每 个 处 理 器 的 高 速 
缓存 都 有 一 组 标记 位 ， 用 来 决定 高 速 缓存 块 的 状态 。 这 些 标记 更 新 的 依据 是 与 一 致 性 协议 相 
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联系 的 状态 图 。 比 如 ， 当 侦 听 硬件 检测 到 读 指令 向 含有 脏 标 记 副 本 的 高 速 缓存 块 发 出 时 ， 它 
将 控制 总 线 ， 将 脏 数 据 消除 。 同 样 ， 当 侦 听 硬件 检测 到 写 指 令 向 含有 副本 的 高 速 缓 存 块 发 出 
时 ， 它 会 使 该 块 无 效 。 其 他 的 状态 转换 也 以 这 种 方式 在 本 地 进行 。 

侦 听 高 速 缓存 的 性 能 ” 侦 听 协议 已 得 到 广泛 的 研究 ， 并 已 在 商用 系统 中 得 到 应 用 。 这 主 
要 十 因 为 侦 听 系统 比较 简单 ， 而 且 现 有 的 基于 总 线 的 系统 能 够 升级 以 适应 侦 听 协议 。 侦 听 系 
统 的 性 能 增益 表现 在 : 当 不 同 的 处 理 器 对 不 同 的 数据 项 操作 时 ， 这 些 数据 项 可 以 放 在 高 速 组 
存 中 。 当 这 些 项 被 标记 为 脏 时 ， 随 后 的 操作 便 可 以 对 高 速 缓存 本 地 执行 ， 不 会 产生 外 部 的 数 
据 传 输 。 同 样 ， 如 果 某 一 数据 项 要 被 许多 处 理 器 读 入 ， 它 就 会 在 高 速 缓存 中 转换 到 共享 状态 ， 
以 后 所 有 对 它 的 读 操作 都 在 本 地 进行 。 在 这 两 种 情况 下 ， 一 致 性 协议 都 不 会 增加 任何 开销 。 
男 一 方面 ， 如 果 多 个 处 理 器 读 取 及 更 新 邮 样 的 数据 项 ， 在 多 个 处 理 器 之 间 就 会 产生 一 致 性 动 
作 。 由 于 共享 总 线 的 带宽 有 限 ， 在 单位 时 间 内 只 能 执行 这 样 一 组 数量 不 变 的 一 致 性 操作 。 这 
就 形成 基于 总 线 的 侦 听 系统 的 一 个 主要 瓶颈 。 

侦 听 协议 与 基于 像 总 线 广播 网 络 这 样 的 多 计算 机 密切 相关 。 这 是 因为 所 有 的 处 理 器 都 要 
侦 听 所 有 的 消息 。 很 显然 ， 向 所 有 的 处 理 器 广播 一 个 处 理 器 的 所 有 内 存 操作 并 非 可 扩展 的 解 
决 方案 。 解 决 此 问题 的 一 个 明显 方法 是 只 将 一 致 性 操作 传播 给 那些 必须 参与 操作 的 处 理 器 
( 即 含 有 数据 的 相关 副本 的 处 理 器 )。 这 个 方法 要 求 查 出 哪些 处 理 器 中 含有 不 同 数据 项 的 副本 ， 
以 及 这 些 数据 项 的 相关 状态 信息 。 这 种 信息 存储 在 一 个 目录 中 ， 而 基于 这 种 信息 的 一 致 性 机 
制 称 为 基于 目录 的 系统 。 


处 理 需 


TU 
| 高 速 缓存 





图 2-24 一 个 简单 的 基于 总 线 的 侦 听 高 速 缓存 一 致 性 系统 


2. 基于 目录 的 系统 

考察 一 个 简单 的 系统 ， 其 全 局 内 存 增加 一 个 目录 ， 维 护 代表 高 速 缓存 块 以 及 已 缓存 的 处 
理 袁 的 位 图 (图 2-25)。 这 些 位 图 项 有 时 称 为 存在 位 (presence bits ) 。 与 前 面 一 样 ， 假 设 三 状 
态 协议 含有 无 效 、 脏 以 及 共享 等 三 种 状态 。 基 于 目录 的 方案 性 能 的 关键 ， 在 于 只 有 拥有 某 一 
特定 块 (或 正在 读 取 该 块 ) 的 处 理 器 ， 才 会 由 于 一 致 性 操作 参与 状态 转换 。 注 意 ， 其 他 的 状 
态 转换 可 能 由 处 理 器 读 出 、 写 人 或 者 清除 (从 高 速 缓存 中 清除 一 行 ) 触发 ， 但 这 些 转换 都 可 
在 本 地 处 理 ， 因 为 处 理 器 操作 反映 在 存在 位 中 ， 状 态 反 映 在 目录 中 。 
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于 看 一 下 图 2-21 所 示 的 代码 段 。 当 处 理 器 Po 和 Pi 访问 与 变量 x 相对 应 的 块 时 ， 块 的 状态 变 
为 共享 的 ， 而 存在 位 被 更 新 ， 显 示 Po 和 PP 共享 该 块 。 当 Po 对 变量 执行 了 一 次 存储 操作 后 ， 目 
录 中 的 状态 变 为 脏 ，P 的 存在 位 被 复位 。 所 有 随后 的 Po 对 该 变量 的 操作 都 可 以 本 地 进行 。 如 
果 另 一 个 处 理 器 读 出 该 值 ， 目 录 会 注意 到 该 脏 标 记 ， 并 用 存在 位 将 请 求 指向 适当 的 处 理 器 。 
处 理 器 Po 更 新 内 存 中 的 块 ， 并 把 块 送 到 请 求 的 处 理 器 中 。 存 在 位 被 修改 以 反映 这 个 变化 和 状 
态 位 转换 为 共享 。 

基于 目录 方案 的 性 能 “如 像 用 侦 听 协议 那样 ， 如 果 不 同 的 处 理 器 对 不 同 的 数据 块 操作 ， 
这 些 块 在 各 自 的 高 速 缓存 中 变 为 脏 ， 后 面 所 有 的 操作 都 可 以 本 地 进行 。 此 外 ， 如 果 多 个 处 理 
器 读 出 (但 不 更 新 ) 某 一 数据 块 ， 数 据 块 在 高 速 缓存 中 按 共享 状态 被 复制 ， 以 后 的 读 出 操作 

Gd 就 不 会 引起 任何 一 致 性 开销 。 
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图 2-25 基于 目录 系统 的 典型 体系 结构 


当 多 个 处 理 器 试图 更 新 同一 数据 项 时 ， 就 会 引发 一 致 性 操作 。 在 这 种 情况 下 ， 除 了 必需 
的 数据 移动 外 ， 一 致 性 操作 增加 两 种 系统 开销 : 一 种 是 传播 状态 更 新 (无效 或 更 新 )， 另 一 种 
在 从 目录 产生 状态 信息 。 前 者 以 通信 开销 的 形式 出 现 ， 后 者 增加 资源 争 用 。 通 信 开 销 与 要 求 
状态 更 新 的 处 理 器 数量 及 传播 状态 信息 的 算法 有 关 。 资 源 争 用 开销 事实 上 是 更 主要 的 。 由 于 
日 录 在 内 存 中 ， 而 内 存 系统 在 单位 时 间 内 只 能 进行 有 限 数 量 的 读 / 写 操作 ， 所 以 状态 更 新 的 数 
量 最 终 由 目录 决定 。 如 果 某 一 并 行程 序 要 求 大 量 的 一 致 性 操作 (对 共享 数据 块 的 大 量 读 / 写 )， 
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目录 将 最 终 限 制 并 行程 序 的 性 能 。 

最 后 ， 从 成 本 的 角度 来 看 ， 当 处 理 器 量 增加 时 ， 用 来 存储 目录 的 内 存 容量 变 大 ， 其 自身 
也 会 成 为 一 种 瓶颈 。 回 忆 目 录 的 大 小 按 O(mp) 增加 ， 其 中 mm 是 内 存 块 的 数目 ，p 是 处 理 器 的 数 
目 。 减 小 目录 的 方案 之 一 是 增 大 内 存 块 (这样 在 内 存 容量 一 定 的 条 件 下 ， 就 能 碱 小 m)。 然 而 ， 
这 样 会 带 来 如 假 共享 之 类 的 其 他 开销 一 在 程序 中 两 个 处 理 器 更 新 不 同 的 数据 项 ， 但 这 些 数 
据 项 正好 位 于 同一 内 存 块 中 。 这 种 现象 在 第 7 章 作 更 详细 的 讨论 ， 

由 于 目录 构成 争 用 的 中 心 ， 人 们 自然 想到 把 在 多 个 处 理 器 之 间 保持 一 致 性 的 任务 拆 分 
基本 原理 是 让 每 个 处 理 器 保持 自己 内 存 块 的 一 致 性 ， 假 设 在 多 个 处 理 器 之 间 有 一 个 物理 的 
(或 逻辑 的 ) 内 存 块 的 分 区 存在 。 这 就 是 分 布 式 目录 系统 的 原理 。 

分 布 式 目录 方案 ”在 可 扩展 的 体系 结构 中 ， 内 存 物理 分 布 于 多 个 处 理 器 之 中 。 相 应 块 的 
存在 位 也 是 分 布 式 的 ， 每 个 处 理 器 负责 维护 自己 内 存 块 的 一 致 性 。 图 2-25b 所 示 就 是 这 样 一 种 
体系 结构 。 由 于 每 个 块 都 有 一 个 拥有 者 (通常 可 由 内 存 块 的 地 址 算出 )， 其 目录 位 置 对 于 所 有 
处 理 器 来 说 是 隐 式 可 知 的 。 当 某 个 处 理 器 试图 第 一 次 读 出 块 时 ， 它 向 拥有 者 发 送 块 请 求 ， 拥 
有 者 根据 本 地 可 获得 的 存在 位 及 状态 信息 适当 地 引导 该 请 求 。 同 样 ， 当 某 一 处 理 器 向 内 存 块 
写 人 时 ， 处 理 器 向 拥有 者 传播 一 个 无 效 信息 ， 然 后 无 效 信息 转 发 到 所 有 在 高 速 缓存 中 含有 该 
块 副本 的 处 理 器 。 这 样 的 方法 使 目录 不 再 是 中 心 ， 与 中 央 目 录 相 关 的 争 用 就 减轻 了 。 但 是 注 
意 与 状态 更 新 消息 相关 的 通信 开销 并 没有 减少 。 

分 布 式 目录 方案 的 性 能 很 明显 ， 分 布 式 目 录 人 允许 O(p) 个 同时 的 一 致 性 操作 ， 前 提 是 底层 
网 络 能 够 承受 相应 的 状态 更 新 消息 。 从 这 点 来 看 ， 分 布 式 目录 本 质 上 比 侦 听 系统 及 中 央 目 录 
系统 具有 可 扩展 性 。 对 于 这 样 的 系统 来 说 ， 网 络 的 延迟 及 带宽 成 为 主要 的 性 能 瓶颈 。 


2.5 并 行 计算 机 的 通信 成 本 


执行 并 行程 序 时 ， 一 个 重要 开销 来 自 于 处 理 器 间 的 信息 通信 。 通 信 成 本 与 很 多 因素 有 关 ， 
如 编程 模型 语义 、 网 络 拓扑 结构 、 数 据 处 理 和 路 由 选择 以 及 相关 的 软件 协议 等 。 这 些 问题 是 
本 节 讨 论 的 中 心 。 


2.5.1 并 行 计算 机 的 消息 传递 成 本 


在 网 络 的 两 个 节点 间 传 送 一 条 消息 所 花 的 时 间 是 准备 传送 消息 所 花 的 时 间 及 消息 从 网 络 

中 传送 到 目的 地 所 花 时 间 之 和 。 决 定 通信 延迟 的 主要 参数 有 以 下 几 个 : 

1) 启动 时 间 (1,): 启动 时 间 是 在 发 送 节点 和 接收 节点 处 理 消息 所 花费 的 时 间 。 它 包括 消 
息 的 准备 时 间 〈 添 加 头 、 尾 以 及 错误 校正 信息 ) ， 执 行路 由 算法 的 时 间 ， 以 及 在 本 地 

节点 和 路 由 器 之 间 建 立 接口 的 时 间 。 对 于 一 条 信息 的 传递 来 说 ， 这 种 延迟 只 发 生 一 
次 。 

2) 每 站 时 间 (4): 当 消 息 离开 一 个 节点 后 , 需要 花 一 定 的 时 间 到 达 路 径 上 的 下 一 个 节点 。 
消息 头 在 两 个 直接 连接 的 节点 间 传 送 所 花费 的 时 间 称 为 每 站 时 间 ， 也 称 为 节点 延迟 
(node latency ) 。 每 站 时 间 与 决定 消息 将 转发 到 哪个 输出 缓冲 或 通道 的 路 由 选择 开关 直 
接 相 关 。 

3) 每 字 传 送 时 间 〈m): 如 果 通 道 带 宽 是 r 个 字 每 秒 ， 那 么 每 个 字 要 花 上 = 1//- 秒 穿 过 链 路 。 
这 个 时 间 称 为 每 字 传送 时 间 ， 它 包括 网 络 开销 以 及 缓冲 开销 。 
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下 面 讨论 两 种 已 用 于 并 行 计算 机 的 路 由 选择 技术 一 一 存储 转发 路 由 选择 及 直通 路 由 选择 。 


1. 存储 转发 路 由 选择 

在 存储 转发 路 由 选择 过 程 中 ， 消 息 穿 过 有 多 个 链 路 的 路 径 时 ， 路 径 上 的 每 个 中 间 市 点 接 
收 和 存储 完整 的 消息 后 ， 就 把 消息 转发 给 下 一 个 节点 。 图 2-26a 显 示 在 存储 转发 路 由 选择 网 络 
传递 消息 的 过 程 。 

假 没 大 小 为 m 的 消息 要 在 这 样 的 网 络 中 传输 ， 且 要 穿 过 ! 个 链 路 。 在 每 个 链 路 ， 消 息 的 头 
会 导致 4 的 时 间 开 销 ， 而 消息 的 其 他 部 分 穿 过 链 路 会 导致 jm 的 时 间 开 销 。 由 于 有 ! 个 这 样 的 链 
路 ， 总 时 间 为 《nm + twm)1。 因 此 ， 在 存储 转发 路 由 选择 过 程 中 ，m 大 小 的 消息 穿 过 ! 个 通信 和 链 
路 所 需 的 总 时 间 为 


tcomm = {ts + (mtw + th)l (2-2) 


在 如 今 的 并 行 计算 机 中 ， 每 站 时 间 非 常 小 。 对 于 绝 大 多 数 并 行 算法 ， 即 使 m 很 小 ， 也 
小 于 rm ， 因 此 ，# 可 以 忽略 不 计 。 对 于 采用 存储 转发 路 由 选择 的 并 行 平 台 ，(2-2) 式 可 以 简 
化 为 


tcomm = ts + mity 


2. 包 路 由 选择 z | 

存储 转发 路 由 选择 对 通信 资源 的 利用 率 很 低 。 在 某 一 个 节点 ， 一 条 消息 只 有 在 完全 接收 

， 才 会 传送 到 下 一 个 节点 〈 图 2-26a)。 考 察 如 图 2-26b 所 示 的 情况 ， 原 始 消息 在 发 送 前 被 分 
大 届 丰 相等 的 部 人 在 这 种 情况 下 ， 中 间 节 点 只 须 等 到 原始 消息 的 一 半 到 达 就 可 将 消息 传递 
下 去 。 从 图 2-26 b 看 出 ， 通 信 资 源 的 利用 率 提 高 和 通信 时 间 减 少 都 很 明显 。 图 2-26 c 则 更 进 一 
步 ， 把 消息 分 成 4 部 分 。 除 了 提高 通信 资源 利用 率 外 ， 这 个 方法 还 有 其 他 的 好 处 一 一 降低 来 自 
包 损失 (错误) 的 开销 ， 降 低 从 其 他 路 径 传送 的 可 能 性 ， 以 及 提高 错误 校正 的 能 力 。 因 此 ， 
这 个 技术 是 像 因特网 这 样 的 长 距离 通信 网 络 的 基础 ， 在 这 样 的 网 络 中 ， 错 误 率 、 站 数目 以 及 
网 络 状态 的 变化 都 高 得 多 。 当 然 ， 每 个 包 都 必须 携带 路 由 选择 信息 、 错 误 校 正信 息 以 及 顺序 
信息 ， 它 们 构成 了 网 络 开销 。 

芳 虑 将 m 字 的 消息 通过 网 络 传送 。 对 网 络 接口 进行 编程 以 及 计算 路 由 选择 信息 等 所 花 时 间 
与 消息 长 度 无 关 。 该 时 间 累 计 在 消息 传送 的 开始 时 间 # 中 。 我 们 假设 路 由 选择 表 在 消息 传送 的 
过 程 中 是 静态 的 〈 即 所 有 的 包 在 同一 条 路 径 上 传送 ) 。 虽 然 这 不 是 在 所 有 情况 下 都 有 效 的 假设 ， 
但 它 有 利于 建立 一 个 消息 传送 的 成 本 模型 。 消 息 被 分 成 包 ， 包 再 与 它们 的 错误 域 、 路 由 域 以 
及 顺序 域 组 合 。 包 的 大 小 为 r- + s， 其 中 r 是 原始 消息 ， 而 s 是 包 中 带 的 附加 信息 。 将 消息 分 成 包 
的 时 间 与 消息 的 长 度 成 正比 。 这 个 时 间 用 mt, 表示。 如 果 网 络 能 在 每 ts 秒 传送 一 个 字 ， 在 每 站 
有 #% 的 延迟 ， 同 时 如 果 第 一 个 包 穿 过 ! 个 站 ， 那 么 该 包 要 花 志 + fw (7 + 5) 时 间 才 能 到 达 目 的 地 。 
在 此 时 间 后 ， 目 的 节点 每 隔 aaz (r + s) 秒 收 到 附加 的 包 。 由 于 附加 包 有 m/r~1 个 ， 总 通信 时 间 由 
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c) 同样 的 消息 分 成 4 部 分 并 在 网 络 
中 传送 





图 2-26 从 布点 Po 传递 消息 到 P,: a) 通过 存储 转发 通信 网 络 ; 
b) 和 c) 扩展 为 直通 路 由 选择 。 带 阴 影 区 域 代表 消息 在 传送 
中 的 时 间 。 这 里 假设 与 消息 传送 相关 的 开始 时 间 为 0 


包 路 由 选择 适用 于 高 动态 状态 及 高 错误 率 的 网 络 ， 如 局 域 网 及 广域网 。 这 是 因为 每 个 包 
都 可 以 选择 不 同 的 路 由 ， 可 以 只 对 丢失 的 包 进行 重 发 。 


3. 直通 路 由 选择 
在 并 行 计算 机 互连网 络 中 ， 可 以 对 消息 传送 添加 另外 的 限制 以 减少 与 包 开 关 相关 的 开销 。 
通过 强制 所 有 包 走 同 样 的 路 径 ， 就 可 以 去 除 每 个 包 的 传送 路 由 选择 信息 开销 ; 通过 强制 顺序 
传送 ,顺序 信 息 也 可 以 去 除 ; 通过 将 错误 信息 与 消息 层 而 不 是 包 层 相 联 系 ， 则 与 错误 检测 及 
修正 相关 的 开销 也 可 以 减少 ; 最 后 ， 因 为 并 行 计算 机 互连网 络 中 的 错误 率 非常 低 ， 可 采用 错 
误 检测 机 制 取代 开销 很 大 的 错误 校正 方案 。 
这 些 优 化 的 路 由 选择 方案 称 为 直通 路 由 选择 。 在 直通 路 由 选择 过 程 中 ， 消 息 被 分 成 固定 
大 小 的 单元 ， 称 为 流量 控制 数字 (flow control digit) 或 数据 片 (flit)， 由 于 数据 片 没有 包 的 
开销 ， 它 们 可 以 比 包 小 得 多 。 首 先 从 源 节 点 向 目的 节点 发 送 跟踪 程序 以 建立 两 点 闻 的 连接 。 
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连接 完成 后 ， 数 据 片 就 一 个 接 一 个 地 传送 。 所 有 的 数据 片 以 吻合 的 形式 通过 同一 路 径 。 中 则 
入 点 盛 须 等 待 所 有 消息 到 达 就 可 以 发 送 数 据 片 。 当 茶 一 数据 片 被 一 中 间 市 点 收 到 后 ， 该 数据 
片 被 传递 到 下 一 市 点。 与 存储 转发 路 由 选择 不 同 ， 每 个 中 间 市 点 无 须 用 缓冲 区 空间 存储 完整 
的 信息 。 因 此 ， 直 通路 由 选择 在 中 间 市 点 处 只 使 用 更 小 的 内 存 和 带宽 ， 速 度 也 快 得 多 。 

故 虑 在 这 样 的 网 络 中 传送 的 一 个 消息 。 如 果 消 息 要 罕 过 /个 链 路 ,4 是 每 站 时 间 ， 那 么 消 
息 的 头 要 花 届 时 间 才 能 到 达 目 的 地 。 如 果 消 息 有 m 字 长 ， 那 么 在 消息 头 到 达 后 ， 再 过 tm 时 间 ， 
整个 消息 到 达 。 因 此 ， 直 通路 由 选择 的 整个 通信 时 间 为 


tcomm = ts +iltht twm (2-3) 


这 个 时 间 比 存储 转发 路 由 选择 有 改进 ， 因 为 直通 路 由 选择 中 与 站 数 及 字数 相关 的 量 可 看 
作 执 行 加 法 运算 ， 而 前 者 是 执行 乘法 运算 。 如 果 只 在 最 近 的 两 个 节点 间 通 信 (也 就 是 ! =1 )， 
或 者 消息 很 小 ， 那 么 存储 转发 路 由 选择 和 直通 路 由 选择 的 通信 时 间 相 似 。 

绝 大 多 数 并 行 计 算 机 及 许多 局 域 网 支持 直通 路 由 选择 。 数 据 片 的 大 小 由 各 种 网 络 参 数 决 
定 。 探 制 线路 必须 以 数据 片 速 度 运行 。 因 此 ， 如 果 数 据 片 很 小 ， 对 与 给 定 的 链 路 带宽 ， 所 需 
的 数据 片 速度 就 很 大 。 这 就 给 路 由 器 的 设计 提出 了 难题 ， 因 为 它 要 求 控制 线路 以 很 高 的 速度 
运行 。 另 一 方面 ， 当 数据 片 增 大 时 ， 内 部 缓冲 区 增 大 ， 消 息 传送 的 延迟 随 之 增加 。 这 两 者 都 
不 符合 需要 。 在 当前 的 直通 互连网 络 ， 数 据 片 大 小 在 4 位 到 32 字 节 之 间 。 在 许多 主要 依靠 短 消 
息 (如 高 速 缓存 行 ) 的 并 行 编程 模式 中 ， 消 息 延 迟 是 关键 问题 。 对 于 这 类 情况 ， 把 长 消息 分 
成 短 消息 通过 链 路 是 不 合理 的 。 这 类 问题 可 用 多 道 直 通路 由 选择 的 路 由 器 来 解决 。 在 多 道 直 
通路 由 选择 时 ， 单 一 物理 通道 被 分 成 许多 虚拟 通道 。 

消息 传送 常量 1,、t 以 及 由 硬件 的 特性 、 软 件 层 以 及 消息 传送 语义 决定 。 与 像 消 息 传递 
模式 相关 的 消息 传送 语义 最 好 使 用 长 度 可 变 的 消息 ， 而 其 他 的 用 定 长 的 短 消息 。 对 于 长 度 可 
变 的 消息 ， 有 效 带 宽 很 重要 ， 而 对 于 定 长 短 消 息 来 说 ， 减 少 延迟 则 更 重要 。 消 息 传送 层 应 能 
反映 这 些 要 求 。 

信息 在 网 络 中 传送 时 ， 如 果 需 要 使 用 一 个 正在 使 用 的 链 路 ， 则 该 消息 被 阻塞 。 这 样 就 会 
造成 死 锁 。 图 2-27 所 示 为 一 个 直通 路 由 选择 网 络 的 死 锁 实 例 。 消 息 0，1，2，3 的 目的 地 分 别 
为 A，B，C，D。 来 自 消息 0 的 数据 片 占据 链 路 CB (以 及 相应 的 缓冲 区 )。 然 而 ， 由 于 链 路 BA 
饭 来 日 消息 3 的 数据 片 占据 ， 造 成 来 自 消 息 0 的 数据 片 阻 宕 。 同 样 ， 由 于 链 路 AD 被 占用 ， 造 成 
来 自 消 息 3 的 数据 片 阻塞 。 从 图 中 可 以 看 出 ， 网 络 中 没有 消息 能 够 继续 通过 ， 造 成 网 络 死 锁 。 
任 直 通 网 络 ， 死 锁 可 以 通过 使 用 适当 的 路 由 选择 技术 以 及 消息 缓冲 区 来 避免 。 这 些 内 容 在 2.6 
节 讨 论 。 z 

4. 消息 通信 的 简化 成 本 模型 

在 2.5.1 节 中 讲 到 ， 使 用 直通 路 由 选择 的 两 个 相距 ! 站 的 节点 的 消息 通信 成 本 由 下 式 给 
出 : : 


tcomm = ts lth + tum 
这 个 公式 表明 ， 为 了 优化 消息 传送 的 成 本 ， 需 要 做 如 下 操作 : 


1) 大 块 通信 ”这 就 是 说 ， 把 多 个 小 消息 集中 成 一 个 大 消息 ， 这 样 就 不 用 发 送 每 条 小 消息 
和 为 每 条 消息 花费 开始 成 本 1,， 使 开始 延迟 在 大 消息 中 减少 。 这 是 因为 ， 在 像 机 群 和 





消息 传递 计算 机 这 样 的 常见 平台 ,4 的 值 要 远大 于 和 1,。 
2 ) 减少 数据 的 大 小 ”为 了 减少 每 字 传 送 时 间 t 的 开销 ， 有 必要 尽 可 能 地 减少 待 传送 数据 

的 大 小 。 
3 ) 减 小 数据 传送 的 距离 “减少 消息 必须 通过 的 站 的 数目 。 





来 自 消 息 2 的 数据 片 
D 





数据 片 缓冲 区 
----> 消息 传送 要 求 的 方向 
图 2-27 直通 路 由 选择 网 络 的 死 锁 实例 


前 两 个 目标 很 容易 实现 ,但 减少 通信 节点 间 的 距离 则 很 困难 ， 很 多 情况 下 会 造成 算法 设 
计 者 的 不 必要 的 负担 。 这 是 并 行 平台 及 模式 如 下 性 质 的 直接 结果 : 

* 在 许多 像 MPI 这 样 的 消息 传递 库 中 ， 程 序 员 几 乎 不 能 控制 把 进程 映射 到 物理 处 理 器 上 。 
在 这 样 的 模式 中 ， 虽 然 任务 可 能 有 定义 很 好 的 拓扑 结构 ， 也 可 能 只 在 任务 拓扑 结构 的 邻 
居间 通信 ， 但 将 进程 映射 到 节点 可 能 会 破坏 这 种 结构 。 : 

“许多 体系 结构 依靠 随机 路 由 选择 (两 步 法 )， 消 息 首先 从 源 节 点 传送 到 一 个 随机 节点 ， 
然后 再 从 这 个 中 间 节 点 传 到 目标 节点 。 这 样 就 能 避 开 网 络 中 的 热点 及 对 网 络 的 争 用 。 在 
随机 路 由 选择 网 络 中 减少 站 的 个 数 没有 好 处 。 

* 每 站 时 间 〈#) 对 小 消息 而 言 ， 主 要 由 开始 延迟 决定 ， 而 对 大 消息 则 主要 由 每 字 的 组 成 
(em) 决定 。 由 于 在 绝 大 多 数 网 络 中 ， 站 的 最 大 值 相对 较 小 ， 每 站 时 间 可 以 忽略 ， 而 准 
确 率 几 乎 不 会 降低 。 

根据 以 上 的 特点 ， 得 出 消息 在 网 络 中 两 个 节点 间 传 递 的 简化 成 本 模型 为 


fcomm 三 ts 十 twm 


(2-4) 
这 个 表达 式 对 于 体系 结构 独立 的 算法 设计 以 及 准确 的 运行 时 预测 都 有 重要 意义 。 由 于 该 
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成 本 模型 包含 在 任意 对 节点 间 通 信 所 花 时 间 都 相同 ， 它 与 全 连接 网 络 对 应 。 这 样 就 不 需要 为 
各 种 特定 的 体系 结构 (比如 格 网 、 超 立方 体 或 树 ) 设计 算法 ， 只 须 在 设计 算法 时 记 住 访 成 本 
模型 ， 并 将 算法 转 到 目标 并 行 计算 机 中 。 

当 算法 由 简化 模型 (假设 为 全 连接 网 络 ) 转 到 实际 的 计算 机 体系 结构 时 ， 会 带 来 一 个 重 
要 的 问题 一 一 准确 性 ( 保 真 度 ) 预测 降低 。 如 果 开 始 时 假设 通常 主要 由 4 决定 ， 或 者 .是 有 
效 的， 那么 准确 性 只 会 降低 很 少 。 然 而 ， 这 里 要 注意 很 重要 的 一 点 ， 我 们 的 基本 成 本 模型 只 
对 非 拥 塞 网 络 有 效 。 不 同 的 体系 结构 对 拥塞 有 不 同 的 临界 值 ; 也 就 是 说 ， 线 性 阵列 的 拥塞 临 
界 值 要 比 超 立 方 体 的 低 得 多 。 此 外 ， 不 同 的 通信 模式 对 网 络 的 拥塞 程度 也 不 一 样 。 因 此 ， 只 
有 当 通信 模式 不 拥塞 网 络 时 ， 上 述 的 简化 成 本 模型 才 有 效 。 
例 2.15 拥塞 对 通信 成 本 的 影响 

考虑 一 个 Vp x VP 格 网 ， 它 的 每 个 节点 都 只 和 最 邻近 的 节点 通信 。 由 于 消息 传送 使 用 网 
络 的 链 路 不 超过 一 个 ， 通 信 操 作 的 时 间 为 {; + tm， 其 中 是 传送 的 字 的 数目 。 这 个 时 间 与 简 
化 模型 一 致 。 

下 面 考虑 将 上 述 情况 修改 为 每 个 节点 和 另 一 个 随机 选择 的 节点 通信 。 这 种 随机 性 意味 着 
有 p/2 次 通信 (或 p/4 次 双向 通信 ) 发 生 于 格 网 的 任何 相等 分 区 中 (因为 参与 通信 的 节点 位 于 任 
何 一 半 的 概率 相等 )。 从 对 分 宽度 的 讨论 可 知 ，2 维 格 网 的 对 分 宽度 为 ,万 。 由 以 上 两 点 可 以 
推断 一 些 链 路 至 少 必须 携带 入 - 万 /4 条 消息 ， 这 里 假设 通信 通道 是 双向 的 。 这 些 消息 必须 
在 网 络 中 品行 通过 。 如 果 每 一 条 消息 的 大 小 为 m， 则 此 操作 所 需 时 间 至 少 为 1 +t,mx [514 。 
这 个 时 间 与 简化 模型 不 一 致 


上 面 的 例子 说 明 ， 对 某 一 体系 结构 ， 有 些 通信 模式 不 会 造成 拥塞 ， 但 另 一 些 模 式 则 有 可 
能 。 这 使 建立 通 入 成 本 模型 的 任务 不 仅仅 要 考虑 体系 结构 ， 还 要 考虑 通信 模式 。 为 了 说 明 这 
一 点 ， 我 们 引进 有 歼 带 宽 (effective bandwidth) 的 概念 。 如 果 通 信 模 式 不 会 拥塞 网 络 ， 那 么 
有 效 带 宽 就 与 链 路 的 带宽 相同 。 但 是 ， 如 果 通 信 操 作 拥塞 网 络 ， 有 效 带 宽 就 变 为 链 路 带宽 的 
一 部 分 ， 缩 小 的 比例 为 最 拥塞 链 路 上 的 拥塞 度 。 此 时 有 效 带 宽 很 难 估计 ， 因 为 它 与 进程 到 节 
扩 的 上 映射、 路 由 选择 算法 以 及 通信 调度 相关 。 因 此 ， 我 们 使 用 消息 通信 有 时间 的 下 界 。 相 应 的 
链 路 带宽 缩小 的 比例 因子 为 plb， 其 中 b 是 网 络 的 对 分 带宽 。 

在 本 文 的 后 面 ， 还 会 对 使 用 有 效 每 字 时 间 坟 ,的 消息 传递 应 用 简化 的 通信 和 模型， 因为 这 样 可 
以 按 体系 结构 独立 的 方式 设计 算法 。 对 算法 中 的 通信 操作 造成 网 络 拥塞 以 及 如 何 影 响 并 行 运 
行 时 间 ， 我 们 也 要 做 出 特别 说 明 。 本 书 中 的 通信 时 间 适 用 于 普通 类 型 的 k~-d 格 网 。 虽 然 这 些 时 
间 在 其 他 的 体系 结构 中 也 可 能 实现 ， 但 这 是 通过 基础 体系 结构 得 出 的 。 


2.5.2 共享 地 址 空间 计算 机 的 通信 成 本 


将 通信 成 本 与 并 行 编程 相 联系 的 主要 目的 ， 是 为 了 将 程序 与 质量 相 联 系 ， 以 指导 程序 的 
开发 。 对 于 高 速 缓存 一 致 的 共享 地 址 空间 计算 机 ， 实 现 该 目的 要 比 在 使 用 消息 传递 或 非 高 速 
缓存 一 致 结构 的 计算 机 上 困难 得 多 。 其 原因 如 下 : 

* 内 存 布局 通常 由 系统 决定 。 程 序 员 除 了 改变 数据 结构 之 外 ， 很 少 能 控制 特定 数据 项 的 位 

站 以 优化 存 取 。 这 一 点 对 于 分 布 式 内 存 共 享 地址 空间 体系 结构 尤其 重要 ， 因 为 该 体系 结 
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构 很 难 区 别 本 地 与 远程 存 取 。 如 果 对 本 地 或 远程 数据 项 的 存 取 时 间 有 显著 差别 、 那 么 通 

信 成 本 在 很 大 程度 上 依赖 于 数据 布局 。 

。 有 限 大 小 的 高 速 缓存 会 导致 高 速 缓存 颠 壬 。 若 某 一 节点 需要 整个 数据 的 一 部 分 来 计算 结 

果 ， 如 果 这 个 部 分 比 本 地 可 用 的 高 速 缓存 小 ， 那 么 数据 会 在 第 一 次 访问 时 取出 并 进行 计 

算 。 然 而 ， 如 采 该 部 分 超出 可 用 的 高 速 缓存 ， 那 么 数据 的 某 些 部 分 会 被 覆盖 ， 随 后 再 被 

访问 几 次 。 当 程序 变 大 ， 这 种 开销 会 造成 严重 的 性 能 下 降 。 为 弥补 这 一 点 ， 程 序 员 必须 

修改 执行 调度 来 减少 工作 区 的 大 小 〈 例 如 ， 习 题 2.5 中 串 行 矩阵 相 乘 时 分 块 循 环 )。 此 问 

题 在 串 行 及 多 处 理 器 平台 都 很 常见 ， 但 在 多 处 理 器 系统 中 的 性 能 损失 则 要 大 得 多 ， 因 为 

每 次 失败 都 会 带 来 一 致 性 操作 及 处 理 器 间 的 通信 。 

* 与 无 效 及 更 新 相关 的 开销 很 难 量 化 。 数 据 项 被 处 理 器 取 到 高 速 缓存 后 ， 可 能 会 被 另 一 个 

处 理 硕 用 于 进行 许多 操作 。 例 如 ， 在 无 效 协 议 中 ， 远 程 处 理 器 的 写 操作 可 能 会 使 高 速 组 

存 行 无 效 。 在 这 种 情况 下 ， 对 该 数据 项 的 下 一 个 读 操 作 就 会 再 次 付出 远程 访问 延迟 的 代 

价 。 同样 ， 与 更 新 协议 相关 的 开销 则 会 根据 数据 项 的 副本 数量 显著 变化 。 一 个 数据 项 的 

并 发 副本 数量 以 及 指令 执行 调度 通常 不 受 程 序 员 控 制 。 

* 空间 本 地 性 很 难 模 仿 。 因 为 高 速 缓 存 行 通常 长 于 一 个 字 ( 从 4 到 128 字 )， 即 使 是 第 一 次 

访问 ,不 同 的 字数 也 会 有 不 同 的 与 这 些 字 相关 的 访问 延迟 。 如 果 高 速 缓存 行 尚未 被 覆盖 ， 

则 访问 以 前 取 过 的 邻近 的 字 可 能 会 非常 快 。 同 样 ， 程 序 员 对 这 一 点 很 难 控制 ， 不 同 于 改 

变数 据 结构 以 增 大 数据 访问 的 空间 本 地 性 。 

* 预 取 可 以 起 到 减少 与 数据 访问 相关 开销 的 作用 。 如 果 有 足够 资源 ， 编 译 器 可 以 将 加 载 提 

前 ， 这 样 与 这 些 加 载 相关 的 开销 就 可 以 被 完全 隐藏 。 由 于 预 取 与 编译 器 、 用 到 的 程序 以 

及 资源 的 可 用 性 (寄存 器 /高 速 缓存 ) 相关 ， 很 难 对 它 进 行 准确 的 模拟 。 

“在 许多 程序 中 ， 假 共享 通常 是 重要 的 开销 。 由 不 同 处 理 器 (上 的 线程 ) 使 用 的 两 个 字 可 

能 位 于 同一 高 速 缓 存 行 中 。 这 样 就 会 造成 一 致 性 操作 及 通信 开销 ,即使 数据 没有 被 共享 。 

程序 员 必 须 充 分 研究 不 同 处 理 器 使 用 的 数据 结构 ， 以 减少 假 共享 。 

* 对 共享 访问 的 争 用 通常 是 共享 地 址 空间 计算 机 中 的 一 项 主要 开销 。 不 幸 的 是 ， 争 用 与 执 

行 调度 有 关 ， 故 很 难 准确 地 对 其 模拟 (独立 于 调度 算法 )。 虽 然 通 过 对 共享 访问 进行 计 

数 ， 可 以 得 到 它 的 新 近 估 计 ， 但 这 样 的 估计 往往 没有 太 大 的 意义 。 

共享 地 址 空间 计算 机 的 任何 成 本 模型 必须 考虑 上 面 讲 到 的 所 有 开销 。 把 这 些 开 销 全 放 到 
一 个 成 本 模型 里 ， 会 使 模型 过 于 繁杂 而 难于 编程 ， 也 会 导致 过 于 针对 具体 的 计算 机 ， 使 模型 
不 能 通用 。 

作为 第 一 级 模型 ， 容 易 看 到 ， 存 取 一 个 远程 字 会 导致 某 一 高 速 缓 存 行 被 取 到 本 地 高 速 组 
存 中 。 与 此 存 取 相 关 的 时 间 开销 包括 一 致 性 开销 、 网 络 开销 以 及 内 存 开 销 。 一 致 性 与 网 络 开 
销 与 采用 的 互 连 方式 有 关 (因为 一 致 性 操作 必须 传送 给 远程 处 理 器 ， 数 据 项 必须 被 取出 )。 由 
于 不 知道 某 一 次 具体 的 存 取 与 什么 样 的 一 致 性 操作 相关 ， 也 不 知道 内 存 字 从 何 处 而 来 ， 我 们 
就 设 存 取 含 共享 数据 的 高 速 缓 存 行 的 开销 为 常量 。 为 了 和 消息 传递 模型 保持 一 致 ， 该 常量 称 
为 e。 因 为 有 多 种 延迟 隐藏 协议 (如 预 取 ) 应 用 于 现代 计算 机 体系 结构 中 ， 我 们 还 假定 常量 i 
与 初始 存 取 m 个 字 共 享 数据 中 的 连续 块 有 关 ， 即 使 m 大 于 高 速 缓 存 行 的 大 小 。 我 们 再 进一步 假 
定 访问 共享 数据 的 成 本 要 高 于 存 取 本 地 数据 (比如 ,在 NUMA 计 算 机 中 ， 本 地 数据 很 可 能 位 
于 本 地 内 存 模 块 中 ， 而 由 p 个 处 理 器 共享 的 数据 对 于 至 少 p-1 个 处 理 器 都 要 从 非 本 地 模块 中 取 
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得 )。 因 此 ， 我 们 指定 共享 数据 的 每 字 存 取 成 本 为 1,。 

从 上 面 的 讨论 可 以 看 出 ， 不 管 是 共享 内 存 还 是 消息 传递 模式 ， 计 算 在 一 对 处 理 器 之 间 共 
享 m 个 字 的 单一 块 的 成 本 仍然 可 以 使 用 同样 的 表达 式 1, + tm (公式 2-4)， 所 不 同 的 是 ， 在 共享 
内 存 计算 机 中 ,常量 5 相对 于 4 的 值 ， 要 比 在 分 布 式 内 存 计 算 机 中 小 得 多 (对 UMA 计 算 机 而 言 ， 
1 接近 于 0)。 注 意 ， 成 本 1, + rm 假定 只 读 访问 而 无 争 用 。 如 果 多 个 进程 访问 同一 数据 ， 则 成 
本 要 乘 以 进程 的 数目 ， 就 像 在 消息 传递 模型 中 一 样 ， 拥 有 数据 的 进程 要 把 消息 发 给 每 个 接收 
的 进程 。 如 果 对 数据 进行 读 写 访问 ， 则 处 理 器 其 后 的 访问 也 会 带 来 成 本 ， 同 一 次 写 操作 不 同 。 
这 一 点 也 和 消息 传递 模型 的 相同 。 如 果 某 一 进程 修改 它 接 收 到 的 消息 的 内 容 ， 则 它 必需 把 访 
消息 送 回 给 接 下 来 要 访问 刷新 后 数据 的 进程 。 在 共享 地 址 空间 计算 机 中 ， 这 个 模型 看 上 去 过 
于 简单 ， 但 是 ， 该 模型 却 能 很 好 地 估计 在 一 对 进程 间 共 享 m 个 字 的 数组 的 成 本 。 

上 面 提 到 的 简单 模型 主要 考虑 远程 数据 访问 造成 的 开销 ， 其 他 多 种 开销 并 没有 考虑 。 对 
共享 数据 访问 的 争 用 ， 必 须 通过 计算 同时 调度 任务 间 的 共享 数据 的 访问 次 数 显 式 地 解决 。 访 
模型 没有 显 式 包含 其 他 多 种 开销 。 由 于 不 同 计算 机 的 高 速 缓存 大 小 不 一 ， 很 难 用 一 种 结构 独 
立 的 方式 ， 确 定 在 何 种 情况 下 工作 集 的 大 小 超过 高 速 缓存 的 大 小 就 能 引起 高 速 缓存 类 徐 。 因 
此 ， 在 这 种 成 本 模型 中 ， 由 于 有 限 高 速 缓存 带 来 的 影响 被 忽略。 最 大 化 空间 本 地 性 (高 速 组 
存 行 的 作用 ) 没有 显 式 地 包含 在 成 本 中 。 假 共享 同 指令 调度 及 数据 布局 有 关 。 成 本 模型 假设 
共享 数据 结构 能 够 被 怡 当 地 填补 ， 因 此 ， 不 包含 假 共享 成 本 。 最 后 ， 成 本 模型 也 不 考虑 重生 
的 计算 与 通信 。 然 而 ， 即 使 对 这 些 模型 设计 简单 算法 也 是 非常 麻烦 的 。 所 以 假设 每 个 处 理 器 
只 执行 单一 的 并 发 计算 单元 ， 与 在 单 处 理 器 上 进行 多 个 并 发 计算 (线程) 相关 的 问题 没有 包 
含 在 模型 中 。 


2.6 互连网 络 的 路 由 选择 机 制 


对 于 并 行 计算 机 的 性 能 而 言 ， 有 效 的 消息 路 由 选择 算法 是 非常 重要 的 。 路 由 选择 机 制 
(routing mechanism ) 确定 了 消息 从 源 点 传送 到 目标 节点 的 路 径 ， 它 将 消息 的 源 点 和 目标 节点 
作为 输入 ， 还 可 能 使 用 网 络 的 状态 信息 ， 返 回 网 络 中 从 源 点 到 目标 节点 的 一 条 或 多 条 路 径 。 

路 由 选择 机 制 可 分 成 最 小 化 路 由 选择 及 非 最 小 化 路 由 选择 两 种 。 在 最 小 化 路 由 选择 机 制 
中 ， 总 是 选 出 从 源 点 到 目标 节点 的 最 短路 径 之 一 ， 在 最 小 化 路 由 选择 方案 中 ， 每 个 链 路 都 使 
消息 更 靠近 目标 ， 但 这 种 方案 会 导致 网 络 的 一 部 分 发 生 拥 塞 。 非 最 小 化 路 由 选择 方案 与 之 相 
反 ， 可 能 对 宵 息 沿 更 长 的 路 径路 由 ， 以 避免 网 络 拥塞 。 

根据 如 何 使 用 网 络 的 状态 信息 ， 路 由 选择 机 制 也 可 分 成 确定 性 路 由 选择 (deterministic 
routing) 和 自 适 应 路 由 选择 (adaptive routing) 两 种 。 确 定性 路 由 选择 方案 根据 消息 的 源 点 和 
目标 节点 ， 为 消息 确定 唯一 的 路 径 ， 它 没有 使 用 任何 网 络 状 态 信 息 。 确 定性 方案 可 能 导致 对 
网 络 通信 资源 的 不 均衡 使 用 。 自 适应 路 由 选择 方案 与 之 相反 ， 它 使 用 网 络 的 当前 状态 信息 确 
定 消 息 传 送 的 路 径 。 自 适应 路 由 选择 能 检测 网 络 的 拥塞 信息 ， 并 能 把 消息 绕 过 拥塞 部 分 。 

维 序 路 由 选择 ( dimension-ordered routing) 是 一 种 常用 的 确定 性 路 由 选择 技术 。 基 于 由 
通道 维 数 决定 的 编号 方案 ， 维 序 路 由 选择 为 消息 传递 提供 相继 的 通道 。 维 序 路 由 选择 用 于 二 
维 格 网 时 称 为 XY 路 由 选择 (XY-routing )， 用 于 超 立 方 体 网 络 时 称 为 E 立 方 体 路 由 选择 (FE- 
cube routing )。 


芝 虑 一 个 无 回 绕 连 接 的 二 维 格 网 。 按 XY 路 由 选择 方案 ， 消 息 首先 沿 X 维 发 出 ， 直 到 到 达 
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目标 节点 的 列 ， 再 沿 Y 维 到 达 目 的 三 点 。 以 Psws 表 示 源 方 点 的 位 置 ，[ 以 Pp, bp: 表 示 目 标 市 扩 的 
位 置 ,任何 最 小 路 由 选择 方案 都 会 返回 路 径 长 度 ISx - Dxl + 15Sy - Dyl。 假设 Dx > Sx 及 Dy> 5Sy。 
在 XY 路 由 选择 方案 中 ， 消息 没 X 维 通过 中 间 方 点 Ps， .Sr+l1， rssr+r2， 0, Psypx, 再 疝 Y 维 通过 市 
Psyinpr, Pyyr2.prs 1 Pom 到 达 目 标 节 点 。 注意 这 个 路 4 双 长 度 的 确 为 |Sx 一 Dxl + ISy — Dyl. 
超 立 方 体 连接 网 络 的 E 立 方 体 路 由 选择 工作 机 理 相 似 . 考虑 一 个 节点 数 为 p 的 d 维 超 立 方 体 。 


令 P, 和 P 分 别 为 疗 万 把 和 目标 节点 的 标号 。 从 2.4.3 小 节 可 知 ， 用 二 进 制 对 这 些 标 号 编码 ,其 - 


长度 为 4 位 。 此 外 ， 市 点 间 的 最 短 距 离 由 P, @ 已 中 1 的 个 数 给 出 (@ 表 示 位 的 异 或 操作 )。 在 E 
并 方 体 算法 中 ， 市 点 P; 计 算 P, @ Ps 的 值 并 褒 k 维 发 送 消息 ， 其 中 k 是 P, @ Ps 中 的 最 低 非 零 有 效 
位 的 位 置 。 每 个 中 间 节 点 P, 接 收 到 消息 ， 计 算出 P, ®@ PJ,， 再 将 消息 沿 着 与 最 低 非 零 有 效 位 对 
应 的 维 转发 。 这 个 过 程 一 直 进行 到 消息 到 达 目 标 节点 才 结 束 。 图 2-16 展 示 在 三 维 超 立 方 体 网 
络 中 的 E 立 方 体 路 由 选择 过 程 。 


例 2.16 超 立 方 体 网 络 的 E 立 方 体 路 由 选择 


如 图 2-28 所 示 的 三 维 超 立方 体 ， 令 已 = 010 和 Ps = 111 分 别 表 示 消 息 传递 的 源 节点 和 目标 
证 尽 。 市 尽 P; 计 算出 010 @ 111 = 101。 在 第 一 步 ， 节 点 P, 将 消息 沿 着 与 最 低 有 效 位 对 应 的 维 传 
送 到 扩 反 011。 市 上 011 再 沿 着 与 最 高 有 效 位 对 应 的 维 (011 @ 111 = 100) 将 消息 送出 。 消 息 
到 达 111， 这 是 消息 的 目标 节点 。 图 


住 本 书 的 剩 下 部 分 ， 将 使 用 确定 性 及 最 小 消息 路 由 选择 来 分 析 并 行 算法 。 





步骤 1010 >110) 此 又 2(110 it11) 


图 2-28 在 使 用 E 立 方 体 路 由 选择 的 三 维 超 立 方 体 中 从 
源 节 点 P, (010) 到 目标 节点 Py (111) 路 由 消息 


2.7 进程 -处 理 器 映射 的 影响 和 映射 技术 


在 2.3.1 节 中 讲 到 ， 程 序 员 通常 不 能 控制 将 逻辑 进程 映射 到 网 络 中 的 物理 节点 上 。 因 此 ， 
即使 是 本 来 不 具 拥 塞 性 的 通信 模式 也 会 使 网 络 拥塞 。 我 们 用 下 面 的 例子 说 明 这 一 点 : 


例 2.17 进程 映射 的 影响 


图 2-29 中 的 基本 体系 结构 为 16 个 节点 的 格 网 ， 标 号 从 1 到 16 (图 2-29a) ， 算 法 按 16 个 进程 
实现 ,标号 为 从 “a” 到 “p”( 图 2-29 b)。 格 网 中 算法 的 执行 经 过 调整 ， 不 会 发 生 拥塞 通信 的 
操作 。 下 面 考 虑 如 图 2-29 c 和 d 中 所 示 的 两 个 进程 到 节点 的 映射 : 图 2-29 c 所 示 只 是 一 个 直观 的 
映射 ， 基 本 体系 结构 中 单一 的 链 路 仅 携带 与 进程 间 单一 的 通信 通道 对 应 的 数据 。 另 一 方面 ， 
住 图 2-29 d 中 ， 进 程 已 被 随机 地 映射 到 处 理 节点 上 。 在 这 种 情况 下 ， 易 见 计 算 机 中 每 条 链 路 扒 
带 进程 间 最 多 6 个 通道 的 数据 。 这 样 情况 下 ， 如 果 进 程 间 通 信 通 道上 需求 的 数据 率 高 ， 就 有 可 





48 用 2 曹 


能 造成 更 长 的 通信 时 间 。 用 
从 上 例 可 以 看 出 ， 虽 然 算 法 可 以 设计 成 不 导致 通信 拥塞 ， 但 将 进程 映射 到 节点 时 还 是 会 
诱发 网 络 中 的 拥塞 ， 并 造成 性 能 下 降 。 





图 2-29 进程 映射 对 性 能 的 影响 : a) 基本 体系 结构 ; 
b) 进程 及 其 交互 ; c) 直观 的 进程 到 节点 
的 映射 ，d) 进程 到 节点 的 随机 映射 


2.7.1 图 的 映射 技术 


程序 员 通 常 无 法 控制 进程 -处 理 器 上 映射， 了 解 这 种 映射 的 算法 是 很 重要 的 。 因为 这 种 映射 
可 以 用 来 度量 某 一 算法 的 性 能 下 降 程 度 。 假 设 有 两 个 图 C (V，E) 和 G' (V'， E')， 图 G 到 图 
G' 的 映射 把 集合 V 中 的 每 个 顶点 映射 到 集合 V' 中 的 一 个 顶点 (或 顶点 集合 )， 并 把 集合 E 中 的 每 
一 条 边 上 映射 到 E' 中 的 一 条 边 (或 边 的 集合 )。 上 映射 过 程 中 ， 有 三 个 参数 很 重要 。 第 一 ，E 中 有 
可 能 不 止 一 条 边 上 映射 到 E' 的 一 条 边 上 。 映射 到 五 的 任意 边 上 的 边 数 最 大 值 称 为 映射 拥塞 度 
(congestion ) 。 在 例 2.17 中 ， 图 2-29 c 的 拥塞 度 为 1 而 图 2-29 4 的 拥塞 度 为 6。 第 二 ，E 中 的 一 条 
边 可 能 被 映射 到 E' 中 多 个 相 邻 的 边 上 。 这 一 点 也 很 重要 ， 因为 在 相应 链 路 的 通信 必须 穿 过 不 
止 一 条 链 路 ， 可 能 导致 网 络 拥塞 。 E 中 的 任意 一 条 边 能 映射 到 E' 中 的 最 大 链 路 数目 ， 称 为 映射 
彩 胀 度 (dilation )。 第 三 ， 集 合 V 和 V' 可 能 包含 不 同 数 量 的 顶点 。 在 这 种 情况 下 ，V 中 的 节点 
和 V' 中 不 止 一 个 节点 相对 应 。 集合 V' 中 节点 的 数 自 和 和 集合 V 中 节点 数目 之 比 称 为 映射 扩充 度 
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(expansion) 。 在 进程 -处 理 器 映射 这 一 部 分 ， 我 们 希望 映射 的 扩充 度 与 虚拟 处 理 器 及 物理 处 
理 器 的 比率 相同 。 

本 节 将 讨论 一 些 常见 图 的 做 入 问题 ， 如 2 维 格 网 (第 8 章 讲述 矩阵 操作 )、 超 立方 体 ( 第 8 
音 讲 述 排序 算法 ， 第 13 章 讲 FFT 算 法 ) 以 及 树 (第 4 章 讲 广播 及 障碍 )。 讨 论 的 范围 将 限制 在 
集合 V 和 V' 有 相同 数量 的 节点 ( 即 扩充 度 为 1)。 

1. 将 线性 阵列 嵌入 超 立方 体 

全 74 个 节点 (标号 从 0 到 24 - 1) 的 线性 阵列 (或 环 ) 可 以 岁入 到 d 维 超 立方 体 中 ， 只 需 把 
线性 阵列 中 的 节点 积 射 到 超 立方 体 的 节点 G(i, 4d) 上。 函数 G(i,*) 定 义 如 下 : 

GD = 
G(1, 1) 1 


本 站 


GC(,x 十 1) = i 入 六 


函数 G 称 为 二 进 制 反 射 蓄 莱 码 (binary reflected Gray code, RGC )。G(i, d) 表 示 d 位 葛 莱 码 
序列 中 的 第 i 项。 通过 对 d 位 葛 莱 码 表 的 反射 ， 对 反映 项 加 一 个 前 级 1， 对 原 项 加 前 级 0， 就 得 
到 d + 1 位 葛 莱 码 。 该 过 程 如 图 2-30 a 所 示 。 

1 位 葛 莱 码 2 位 葛 莱 码 3 位 葛 莱 码 3 维 超 立 方 体 8 处 理 器 环 








沿 此 线 反射 








图 2-30 二 进 制 反射 葛 菜 码 : a) 三 位 反射 葛 莱 码 环 ; 
b) 将 环 戏 入 到 三 维 超 立 方 体 中 
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仔细 研究 更 莱 码 表 可 见 ， 两 个 相 邻 的 项 (G(i, d) 和 G(i + 1, 四 ) 只 存在 一 位 位 置 差异 。 由 
于 在 线性 阵列 中 节点 i 映射 到 节点 G(i, 4)， 节 点 i+ 1 映射 到 G (i+ 1, 4)， 超 立方 体 中 存在 直接 
链 路 与 线性 阵列 中 的 每 一 个 直接 链 路 对 应 。( 回 忆 超 立方 体 中 标号 中 只 有 1 位 位 置 不 同 的 两 个 
性 点 间 存 在 直接 链 路 。) 因此 ， 函 数 G 指 定 的 映射 的 膨胀 度 和 拥塞 度 都 是 1。 图 2-30 b 说 明 将 8 
末 点 环 戏 入 到 3 维 超 立 方 体 中 。 


2. 将 格 网 炭 入 超 立 方 体 

将 格 网 嵌入 超 立 方 体 是 将 环 戏 入 超 立 方 体 的 自然 扩展 。 要 将 2 x 2: 的 环绕 格 网 嵌入 到 2r+ 
个 广 扩 的 超 立 方 体 中 ， 只 须 将 格 网 上 的 节点 (7 ) 映射 到 超 立 方 体 的 节点 G(i, r-1) IIG(j, s-1) 
上 《这 里 | 表示 两 个 葛 莱 码 的 串 连 )。 格 网 中 的 直接 邻居 映射 到 超 立 方 体 中 标号 只 差 一 位 位 置 
的 节点 上 。 因 此 ， 此 映射 的 膨胀 度 和 拥塞 度 都 是 1。 

以 将 2 x 4 格 网 嵌入 8 节点 超 立方 体 为 例 。r 的 值 为 1，s 的 值 为 2。 格 网 的 节点 (i, j) 映射 到 
超 立 方 体 的 市 点 G(i, 1)NG( 2) 上 。 因 为 G(0, 0) 为 0，G(0, 2) 为 00， 将 两 者 串 连 得 到 超 立 
万 体 市 点 的 标号 ， 因 此 ， 格 网 中 的 节点 (0, 0) 就 映射 到 超 立 方 体 的 节点 000 上 。 同 样 ， 格 网 
上 的 市 点 (0, 1) 映射 到 超 立 方 体 的 节点 001 上 ， 以 此 类 推 。 图 2-31 举 例 说 明了 将 格 网 柑 入 超 
立方 体 的 过 程 。 

将 格 网 映射 到 超 立 方 体 中 很 有 用 。 格 网 中 同一 行 的 所 有 节点 上 映射 到 超 立 方 体 中 有 r 个 同样 
最 高 有 效 位 的 节点 上 。 从 2.4.3 节 可 知 ， 对 ~ + s 维 超 立 方 体 的 节点 标号 固定 任意 r 位 ， 就 可 得 到 
含 2 个 市 点 的 s 维 子 立 方 体 。 因 为 每 个 格 网 节点 映射 到 超 立 方 体 中 的 唯一 一 个 节点 ， 格 网 中 有 
2 个 市 把， 故 格 网 中 的 每 一 行 都 映射 到 超 立 方 体 中 的 不 同 子 立方 体 上 。 同 样 ， 格 网 中 的 每 一 列 
映射 到 超 立 方 体 中 的 不 同 子 立 方 体 上 。 
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图 2-31 将 格 网 嵌入 超 立方 体 的 过 程 : a) 4 x 4 格 网 节点 映射 到 4 维 超 
立方 体 的 节点 中 ; b) 2 x 4 格 网 嵌入 到 3 维 超 立 方 体 中 





3. 将 格 网 嵌入 线性 阵列 
上 面 所 讲 的 都 是 将 稀 朴 网 络 庶 人 稠密 网 络 中 。2 维 格 网 有 2 x p 条 链 路 ， 击 含 p 个 节点 的 线 
性 阵列 有 2 条 链 路 。 因 此 ， 从 2 维 格 网 到 线性 阵列 的 映射 一 定 会 造成 拥塞 。 


a) 将 线性 阵列 映射 到 2 维 格 网 
(拥塞 度 为 1 ) 
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b) 反 向 映射 一 一 将 2 维 格 网 映射 到 
线性 阵列 (拥塞 度 为 3) 
图 2-32 从 线性 阵列 到 格 网 的 映射 : a) 将 16 节 点 的 线性 阵列 嵌入 2 维 格 网 中 ; 
b) 反 向 映射 。 粗 线 代表 线性 阵列 中 的 链 路 ， 正 常 线 代 表格 网 中 的 链 路 


首先 来 看 将 线性 阵列 上 映射 到 格 网 中 。 假 设 格 网 和 线性 阵列 中 都 不 含 回 线 连接 。 图 2-32 所 
示 为 一 直观 的 从 线性 阵列 到 格 网 的 映射 。 图 中 ， 粗 线 代表 线性 阵列 中 的 链 路 ， 普 通 线 代 表格 
网 中 的 链 路 。 从 图 2-32 a 中 很 容易 看 出 ， 构 建 一 个 膨胀 度 为 1、 拥 塞 度 为 1 的 线性 阵列 到 格 网 的 
映射 是 可 能 的 。 

下 面 再 考虑 相反 的 映射 ， 即 给 定 一 个 格 网 ， 用 与 上 面相 反 的 函数 将 格 网 中 的 顶点 映射 到 
线性 阵列 上 。 该 映射 如 图 2-32 b 所 示 。 与 前 面 一 样 ， 粗 线 表示 线性 阵列 中 的 边 ， 正 常 线 表 示 格 
网 中 的 边 。 易 见 图 中 所 示 上 映射 的 拥塞 度 为 5， 即 粗 线 与 不 超过 5 条 普通 线 相连 。 对 一 般 的 p 节 点 
映射 而 言 ， 这 个 〈 反 ) 映射 的 拥塞 度 为 Vp +1( 对 于 Vp 条 到 下 一 行 的 边 为 每 条 一 个 ， 以 及 一 
条 附加 的 边 )。 

事实 上 ， 对 上 面 用 到 的 简单 上 映射 可 以 加 以 改善 。 我 们 从 两 个 网 络 的 对 分 宽度 着 手 。 前 面 
讲 过 ， 无 回 绕 连 接 的 2 维 格 网 的 对 分 宽度 为 VP ， 线 性 阵列 的 是 1。 假 设 最 好 的 将 2 维 格 网 映射 
到 线性 阵列 的 拥塞 度 为 "， 它 表示 如 果 将 线性 阵列 从 中 间断 开 ， 那 么 只 会 切断 一 条 线性 阵列 的 
链 路 ， 或 者 不 超过 r 条 格 网 链 路 。 我 们 要 求 r 不 小 于 格 网 的 对 分 宽度 ， 因 为 对 线性 阵列 的 对 分 
同样 会 使 格 网 对 分 ， 故 至 少 VP 条 格 网 链 路 要 穿 过 分 区 ， 即 连接 两 个 相等 部 分 的 线性 阵列 链 、 


路 至 少 与 Vp 个 格 网 链 路 相连 。 因 此 ， 任 何 映射 的 拥塞 度 下 界 为 P ， 这 与 图 2-32 b 中 所 讲 的 
简单 ( 反 向 ) 映射 拥塞 度 大 致 相同 。 
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当 映 射 稠密 网 络 到 稀 琢 网 络 时 ， 上 面 建 立 起 来 的 下 办 有 更 一 般 的 适用 性 。 对 于 从 含 x 条 链 
路 的 网 络 $ 到 含 y 条 链 路 的 网 络 C 的 映射 ， 人 们 会 想到 拥塞 度 下 界 为 xy。 从 格 网 到 线性 阵列 的 
映射 ， 拥 塞 度 下 界 则 是 2p/p 或 2。 然 而 ， 该 下 界 过 于 保守 。 比 较 两 个 网 络 的 对 分 宽度 得 出 的 下 
和 寞 则 更 贴近 。 这 一 点 在 下 一 节 中 将 进一步 讨论 。 


4. 将 超 立 方 体 嵌入 2 维 格 网 

考察 将 p 个 节点 超 立 方 体 谷 人 到 p 个 节点 的 2 维 格 网 。 为 方便 起 见 ， 假 设 p 是 2 的 偶数 次 赛 。 
这 样 就 能 把 超 立 方 体 想像 成 VP 个 子 立 方 体 ， 每 个 子 立方 体 有 Vp 个 节点 。 再 令 d = log p 为 超 
立方 体 的 维 。 由 假设 4 是 偶数 ,可 使 用 d/2 个 最 低 有 效 位 来 定义 含 Vp 个 节点 的 子 立方 体 。 例如 ， 
对 4 维 超 立 方 体 而 言 ， 可 使 用 最 低 的 两 位 来 定义 子 立方 体 为 (0000, 0001, 0011, 0010)、(0100， 
0101, 0111, 0110)、(1100, 1101, 1111, 1110) 以 及 (1000, 1001, 1011， 1010 ) 。 如 果 将 所 有 子 
立方 体 的 d/2 个 最 低 有 效 位 固定 ， 就 能 得 到 另 一 个 由 d/2 个 最 高 有 效 位 定义 的 子 立方 体 。 例 如 ， 
如 果 把 所 有 超 立 方 体 的 最 低 2 位 固定 为 10， 就 会 得 到 节点 (0010, 0110, 1110, 1010)。 读 者 可 以 
验证 它 与 一 2 维 子 立方 体 对 应 。 

从 超 立 方 体 到 格 网 的 映射 可 以 按 以 下 方法 定义 : 每 Vp 个 节点 的 子 立方 体 上 映射 到 格 网 的 
VP 个 节点 的 行 中 。 只 要 把 线性 阵列 逆 映 射 到 超 立方 体 映射 就 能 做 到 这 一 点 。 含 Vp 个 节点 的 
超 立 方 体 的 对 分 宽度 为 Vp /2。 对 应 的 含 Vp 节点 的 行 的 对 分 宽度 为 1。 因 此 从 子 立方 体 到 行 
的 映射 的 拥塞 度 为 Vp /2 (在 连接 两 个 对 半 行 的 边 上 )。 图 2-33 a 说 明 p 为 16 的 情形 ， 图 2-33 b 
说 明 p 为 32 时 的 情形 。 按 这 种 方式 ， 可 以 把 每 个 子 立方 体 上 映射 到 格 网 中 的 不 同行 上 。 这 里 要 注 
意 的 是 ， 上 面 计 算出 的 拥塞 度 来 自 于 子 立方 体 到 行 的 上 映射， 我 们 没有 讨论 来 自 列 映射 的 拥塞 。 
如 果 将 超 立 方 体 中 4d/2 个 最 低 有 效 位 相同 的 节点 映射 到 格 网 的 同一 列 上 ， 就 变 成 了 子 立 方 体 到 
列 的 映射 。 在 子 立 方 体 到 列 的 映射 中 ， 每 个 子 立方 体 或 列 都 有 Vp 个 节点 。 按 与 子 立方 体 到 
行 映射 的 相同 的 论证 ， 可 得 子 立 方 体 到 列 映射 的 拥塞 度 也 是 Vp /2。 由 于 来 自行 映射 的 拥塞 和 
来 自 列 映射 的 拥塞 所 影响 的 边 的 集合 不 相连 ， 总 的 拥塞 度 还 是 Vp /2。 

按照 2.7.1 节 相同 的 论证 可 以 得 到 拥塞 度 的 下 界 。 由 于 超 立方 体 的 对 分 宽度 为 p/2， 格 网 的 对 分 
宽度 为 Vp ， 拥 塞 度 的 下 界 为 两 者 的 比值 ， 即 Vp /2。 注 意 我 们 的 映射 得 到 这 个 拥塞 度 的 下 界 。 
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5. 进程 ~ 处 理 器 映射 与 互连网 络 设计 

前 面 的 分 析 表 明 ， 可 以 将 稠密 网 络 映射 到 与 拥塞 开销 相关 的 稀 想 网络 中 。 这 就 是 说 ， 一 
个 稀 朴 网 络 ， 如 果 其 链 路 带宽 增 大 到 可 以 抵消 拥塞 ， 就 可 以 按 稠密 网 络 一 样 运行 (以 及 胀 效 
应 为 模 )。 例 如 ， 若 格 网 的 链 路 速度 比 超 立方 体 的 链 路 速度 快 VP /2 倍 ， 则 格 网 的 性 能 与 超 立 
方 体 相 似 。 这 样 的 格 网 称 为 胖 格 网 。 胖 格 网 与 超 立方 体 有 同样 的 对 分 带宽 ， 但 直径 更 大 。 在 
2.5.1 小 节 中 讲 过 ， 如 果 使 用 适当 的 消息 路 由 选择 技术 ， 节 点 距离 的 影响 可 以 缩小 。 指 出 这 样 
一 点 是 重要 的 ， 高 维 网 络 往往 会 导致 网 络 布局 复杂 、 线 路 纵横 以 及 线 长 不 一 等 缺点 。 因 此 ， 
人 们 更 喜欢 用 胖 的 低 维 网 络 来 设计 互 连 。 下 面 将 对 并 行 体系 结构 的 成 本 -性 能 平衡 作 更 具体 的 
研究 。 


2.7.2 成 本 -性 能 平衡 


下 面 开 始 研究 为 何 可 用 不 同 的 成 本 度量 来 探讨 互连网 络 中 的 成 本 -性 能 平衡， 我 们 通过 分 
析 具 有 同样 成 本 的 格 网 和 超 立 方 体 的 性 能 来 说 明 。 

如 果 网 络 的 成 本 与 线路 的 数量 成 正比 ， 那 么 对 于 每 个 通道 有 (log 5)/4 条 线路 的 正方 形 p 节 
点 环绕 格 网 ， 其 成 本 与 每 个 通道 一 条 线路 的 p 节 点 超 立 方 体 相同 。 比 较 这 两 种 网 络 的 平均 通信 
时 间 可 得 ， 二 维 环绕 格 网 中 任意 两 节点 间 的 平均 距离 1% 是 Vp /2，、 而 超 立 方 体 中 为 (log p)/2; 
在 使 用 直通 路 由 选择 的 网 络 ， 相 距 避 ,站 的 两 个 节点 间 传 送 m 大 小 的 消息 所 花 时 间 为 1, + tlio, + 
iwm。 由 于 格 网 的 通道 宽度 增 大 (log p )/4 倍 ， 每 字 传 送 时 间 减 小 同样 的 倍数 。 因 此 ， 如 果 在 
超 立 方 体 中 的 每 字 传 送 时 间 为 i,， 在 通道 变 胖 的 格 网 中 的 时 间 就 是 4tAlog p)。 由 此 可 得 ,在 
超 立 方 体 中 ， 平 均 通信 延迟 为 1, + (log p)/2 + kt， 而 在 同样 成 本 的 环绕 格 网 中 ， 平均 通信 
延迟 为 f+ 1 VP /2 + 4t,.m/(log P)。 

仔细 研究 这 两 个 表达 式 可 见 ， 对 于 固定 数目 的 节点 ， 当 消 息 增 大 时 ， 六 起 决定 作用 。 比 较 
两 个 网 络 的 可见， 如 果 p 大 于 16 并 且 消 息 m 足 够 大 ， 那 么 环绕 格 网 中 花 的 时 间 4tm/(log p) 要 
小 于 超 立 方 体 中 的 时 间 twm。 在 这 种 条 件 下 ， 用 直通 路 由 选择 ， 环 绕 格 网 中 随机 节点 对 之 间 的 
大 消息 的 点 对 点 通信 时 间 小 于 同样 成 本 的 超 立方 体 中 的 通信 时 间 。 而 且 ， 如 果 通 信 算 法 适用 
于 格 网 ， 则 每 个 通道 的 额外 带宽 将 导致 更 好 的 性 能 。 注 意 ， 在 用 存储 转发 路 由 选择 时 ， 格 网 
不 再 比 超 立 方 体 更 具 成 本 有 效 性 。 此 时 可 用 一 般 的 k 元 d 立 方 体 来 进行 相应 的 成 本 -性 能 平衡 分 
析 (习题 2.25 ~ 2.29)。 

上 面 的 通信 时 间 是 在 轻 负载 的 条 件 下 计算 出 的 。 当 消息 增加 ， 网 络 中 就 会 出 现 争 用 争 
用 对 格 网 网 络 的 负面 影响 要 大 于 超 立方 体 网 络 ., 因 此 ， 如 果 网 络 负载 很 重 ， 使 用 超 立 方 体 要 
比 使 用 格 网 更 好 。 

如 果 网 络 成 本 与 对 分 宽度 成 正比 ， 那么 每 通 道 万 /4 条 线路 的 p 节 点 环绕 格 网 与 每 通道 一 条 
线路 的 p 市 点 超 立 方 体 的 成 本 相同 。 下 面 再 以 这 种 成 本 度量 用 与 上 面相 似 的 方法 来 分 析 成 本 一 
性 能 平衡 。 由 于 格 网 通道 宽 Vp /4 倍 ， 每 字 传送 时 间 减 少 同样 倍数 。 因 此 ， 成 本 相同 的 超 立 方 
体 和 格 网 的 通信 时 间 分 别 为 上 + 二 (log p)/2 + tm 和 ts + th Vp /2 + 4twm/ Jp 。 再 次 表明 ， 对 于 
数量 一 定 的 市 操 ， 当 消息 变 大 时 ，z, 将 起 决定 作用 。 将 两 种 网 络 比 较 得 出 ， 当 p >16 且 消息 足 
够 大 时 ， 同 样 成 本 的 格 网 性 能 超过 超 立 方 体 。 因此， 对 于 足够 大 的 消息 ， 在 网 络 负载 较 轻 的 
条 件 下 ， 同 样 成 本 的 格 网 性 能 总 是 好 于 超 立 方 体 。 即 使 网 络 负载 较 重 ， 同 样 成 本 的 格 网 的 性 
能 也 与 超 立 方 体 相当 。 
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2.8 书目 评注 


有 许多 教科 书 讨论 高 性 能 体系 结构 的 若干 方面 [PH90, PH96, Sto93]。 在 [CSG98, LW95， 
HX98, Fly95, AG94, DeC89, HB84, Lil92, Sie85, Sto93] 里 对 并 行 体系 结构 与 互连网 络 有 很 好 
的 描述 。 从 历史 的 角度 上 看 ，Flynn [Fly72] 提 出 了 将 并 行 计 算 机 分 为 SISD ，SIMD 以 及 MIMD 
他 还 推出 了 MISD (多 指令 流 单数 据 流 ) 模型 。MISD 模 型 比 其 他 类 型 的 模型 少见 ， 虽 然 它 可 
以 看 作 流 水 线 执行 的 模型 。Darema [DRGNP] 提 出 了 单程 序 多 数据 (SPMD ) 模式 。Ni[Ni91] 
提出 基于 硬件 体系 结构 、 地 址 空间 、 通 信和 模型、 语言 、 编 程 环 境 以 及 应 用 等 的 并 行 计 算 机 的 
层次 分 类 。 

数 十 年 来 ， 互 连 网 络 成 为 人 们 关注 的 领域 。Feng[Fen81] 提 供 静 态 及 动态 互连网 络 教程 。 
Stone[Sto71] 介 绍 了 全 混 洗 互 连 模式 。Lawrie[Law75] 中 提出 了 Omega 网 络 。 其 他 的 多 级 网 络 
也 被 提出 ， 包 括 Flip 网 络 [Bat76] 以 及 Baseline 网 络 [WF80]。 Leighton[Lei92] 讨 论 树 状 格 网 及 多 
字 塔 格 网 ， 对 其 他 相关 的 网 络 也 有 详细 的 介绍 。 

C.mmp 是 早期 基于 交叉 开关 的 MIMD 共 享 地 址 空间 并 行 计算 机 研究 原型 [WB72]。Sun 
Ultra HPC Server 及 富士 通 VPP500 是 基于 交叉 开关 的 并 行 计 算 机 或 其 变形 。 基 于 多 级 互连网 络 
的 并 行 计 算 机 包括 BBN Butterfly [BBN89]、NYU Ultracomputer FEGGK+83] 以 及 IBM RP- 
3[PBG+85] 等 。SGI Origin 2000、Stanford Dash [LLG+92] 以 及 KSR-1 [Ken90] 都 是 NUMA 共 享 
地 址 空间 计算 机 。 

Cosmic Cube [Sei 85] 是 最 里 的 基于 超 立方 体 连接 网 络 的 消息 传 北 并 生 了 计算 机 。 接 下 来 有 
nCUBE 2[nCU90] 以 及 Intel 的 让 SC-1，iPSC-2，iPSC/860。 最 近 的 SGI Origin 2000 采 用 类 似 于 
超 立 方 体 的 网 络 。Saad 及 Shultz [SS88，SS89a] 从 超 立 方 体 连 接 网 络 以 及 其 他 许多 静态 网 络 
[SS89bj 中 得 出 了 不 少 有 趣 的 性 质 。 许 多 并 行 计 算 机 基于 格 网 网 络 ， 如 Cray T3E。Intel 
Paragon XP/S [Sup 91] 和 Mosaic C [Sei 92] 是 更 早 的 基于 二 维 格 网 的 计算 机 的 例子 。MIT J- 
Machine [D*92] 基 于 三 维 格 网 网 络 。 通 过 用 广播 总 线 扩大 格 网 网 络 可 以 提升 格 网 连接 计算 机 的 
性 能 [KR87a]。Miller et al. [IMKRS88] 提 出 了 格 网 结构 重组 (习题 2.16 中 的 图 2-35 )。 其 他 的 重 
组 格 网 的 例子 还 包括 TRAC 和 PCHIP。 

DADO 并 行 计算 机 基于 树 网 络 [SM86] ， 它 使 用 了 深度 为 10 的 完全 二 叉 树 。Leiserson 
[Lei85b] 提 出 了 胖 树 互连网 络 并 证 明了 该 网 络 的 几 个 有 趣 性 质 。 他 证 明了 在 硬件 条 件 一 定 的 前 
提 下 ， 胖 树 的 性 能 最 好 。Thinking Machines CM-5 [Thi91] 是 基于 胖 树 连接 网 络 的 计算 机 。 

llliac IV [Bar68] 是 最 早 的 SIMD 并 行 计算 机 之 一 。 其 他 的 SIMP 计 算 机 包括 Goodyear MPP 
[Bat801，DAP 610，CM-2[Thi901]、MasPar MP-1 以 及 MasPar MP-2 [Nic90]。CM-5 和 DADO 
中 结合 SIMD 和 MIMD 的 特点 ， 两 者 都 是 MIMD 计 算 机 ， 但 有 实现 快速 同步 的 硬件 ， 使 它们 可 
以 按 SIMD 模 式 操 作 。CM- -5 中 有 用 来 增 大 数据 网 络 的 控制 网 络 ， 该 控制 网 络 提供 广播 、 妇 约 、 
结合 以 及 其 他 的 全 局 操作 。 

Leighton [Lei92] 以 及 Ranka 和 Sahni [RS90b] 讨 论 将 某 一 互连网 络 侯 人 到 另 一 个 网 络 中 。 在 
Reingold [ND 7 中 讨 纶 了 嵌入 线性 阵列 和 格 网 结构 时 用 到 的 高 莱 码 ， Ranka 和 Sahni [RS90b] 
讨论 拥塞 度 、 膨 胀 度 以 及 扩充 度 的 概念 。 

Ni 和 McKinley [NM93] 对 直通 路 由 选择 技术 作 了 全 面 的 评述 。Dally 和 Seitz [DS86] 提 出 忠 
孔 路 由 选择 技术 。Kermani 和 Kleinrock [KK79] 讲 述 了 称 为 虚拟 直通 (virtual cut-through ) 路 
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由 选择 的 相关 技术 ， 该 技术 在 每 个 中 间 节 点 提供 通信 缓冲 。Dally 和 Seitz [DS87] 讨 论 通道 依赖 
图 的 无 死 锁 虫 孔 路 由 选择 。 通 常用 基于 维 数 的 确定 性 路 由 选择 方法 来 避免 死 锁 。 在 几 种 并 行 
计算 机 中 已 经 使 用 了 直通 路 由 选择 技术 。 超 立方 体 的 E 立 方 体 路 由 选择 方案 由 [SB77] 提 出 。 

Dally [Dal90b] 讨 论 消 息 传递 计算 机 所 使 用 网 络 的 成 本 性 能 平衡 。 使 用 网 络 的 对 分 宽度 作 
为 网 络 成 本 的 度量 ， 他 指出 低 维 网 络 (如 二 维 格 网 ) 的 成 本 有 效 性 要 比 高 维 网 络 (如 超 立 方 
体 ) 高 得 多 [Dal87, Dal90b, Dal90a]。Kreeger 和 Vempaty [KV92] 得 出 了 格 网 与 超 立 方 体 连接 计 
算 机 一 一 通信 时 带宽 的 平衡 因子 (4.5 节 )。Gupta 和 Kumar [GK93b] 分 析 格 网 和 超 立 方 体 网 络 
中 FFT 计 算 的 成 本 性 能 平衡 问题 。 

在 [FW78, KR88, LY86, Sni82, Sni85] 中 广泛 研究 了 PRAM 的 性 质 。 由 Akl [Ak189]、 
Gibbsons [GR90] 以 及 Jaja [Jaj92] 所 车 的 书 里 讲述 PRAM 算 法 。 本 书 关 于 PRAM 的 讨论 即 基 于 
Jaja [Jaj92] 所 著 的 书 。 许 多 处 理 器 网 络 用 来 仿真 PRAM 模 型 [AHM87, HP89, LPP88, LPP89， 
MV84, Upf84, UW84]。Mehlhorn 和 Vishkin [MV84] 提 出 用 模块 并 行 计算 机 (module parallel 
computer, MPC ) 来 仿真 PRAM 模 型 。MPC 是 一 种 含 p 个 处 理 器 的 消息 传递 并 行 计算 机 ， 每 个 
处 理 器 都 有 国定 容量 的 内 存 ， 处 理 器 之 间 以 全 连接 网 络 互 连 。 如 果 总 内 存 的 增长 倍数 为 log p， 
则 MPC 在 7log p 步 内 能 概率 仿真 PRAM 的 7 步 。 MPC 模 型 的 主要 缺点 是 , 如 果 处 理 器 数目 很 多 ， 
则 很 难 构建 全 连接 网 络 。Alt et al. [AHMP87] 推 出 另 一 个 称 为 限定 度 网 络 (bounded-degree 
network, BDN ) 的 模型 。 在 这 种 网 络 中 ， 每 个 处 理 器 都 与 固定 数目 的 其 他 几 个 处 理 器 相连 。 
Karlin 和 Upfal [KU86] 在 BDN 上 对 PRAM 擅 述 量 级 为 O(T log p) 的 概率 仿真 。Hornick 和 
Preparata [HP89] 提 出 连接 阁 干 组 处 理 器 程 内 存 池 的 双 疝 网 络 。 他 们 对 基于 树 格 网 的 消息 传递 
MPC 和 BDN 进 行 了 研究 。 z 

人 们 对 PRAM 模 型 提出 了 许多 修改 ， 使 它 更 接近 现实 并 行 了 计算 机 。Aggarwal，Chandra 和 
Snir[ACS89b] 提 出 LPRAM (本 地 内 存 PRAM) 及 BPRAM ( 块 PRAM) 模型 [ACS89b]。 他 们 
还 介绍 了 计算 的 分 层 内 存 模 型 [ACS89a]。 在 这 种 模型 中 ， 不 同 层次 的 内 存单 元 在 不 同 的 时 间 
存 取 。 这 种 模型 的 并 行 算法 在 使 用 数据 前 把 数据 放 到 快速 内 存单 元 里 ， 用 完 后 再 送 回 到 惕 内 
存单 元 ， 以 此 来 导出 数据 的 本 地 性 。 此 外 ， 还 提出 了 其 他 的 PRAM 模 型 ， 如 phase 
PRAMI[Gib89] ，XPRAM[Val90b] 以 及 延 到 模型 [PY88] 等 。 许 多 学 者 研究 了 并 行 计 算 机 的 抽象 
通用 模型 [CKP*93a, Sny86 ，Val90a]。 同 时 提出 了 一 些 具有 类 似 目 的 的 模型 ， 如 BSP[Val90a]， 
Postal 模型 [BNK92], LogP[ICKP*93b]，A;[GKRS96]， CMHK96), CGM[DFRC96] 以 及 
QSM[Ram97] 等 。 


习题 


2.1 设计 一 个 实验 《〈 即 设计 编写 程序 并 作 测 量 ) 确定 你 的 计算 机 的 内 存 带宽 ， 并 估算 不 

同 级 高 速 缓存 的 大 小 。 用 该 实验 估算 出 计算 机 的 带宽 及 L1 高 速 缓存 ， 并 证 明 结 果 的 正确 性 。 

(提示 : 测试 带宽 时 无 须 重 用 数据 。 测试 高 速 缓存 入 小 时 则 需要 重用 数据 ， 以 便 观 察 高 速 缓存 
的 效果 ， 并 增加 高 速 缓存 大 小 ， 直 至 数据 重用 明显 下 降 .。 ) 

2.2 某 内存 系 统 ，! 级 高 速 缓存 为 32 KB，DRAM 为 512 MB ， 处 理 器 频率 为 1 GHz。L1 高 

速 缓存 的 延迟 为 1 个 周期 ，DRAM 的 延迟 为 100 周 期 。 在 每 个 内 存 周 期 ， 处 理 器 取出 4 个 字 (高 

速 缓存 行 大 小 为 4 个 字 ) 。 两 个 向 量 点 积 可 获得 的 峰值 性 能 是 多 少 ? 注意 : 有 必要 的 话 考虑 优 
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化 的 高 速 缓存 替代 策略 ， 


1 /* dot product loop */ 
2 for {i = 0; i < dim; i++) 
3 dot prod += al[lil * b[il]; 


2.3 ” 基 察 用 两 重 循环 的 点 积 公式 将 稠密 矩阵 与 向 量 相 乘 的 问题 。 和 矩阵 为 4K x 4K。( 存 储 
矩阵 的 每 一 行 需 16 KB. ) 使 用 这 种 方法 可 获得 的 峰值 性 能 是 多 少 ? 


/* matrix-vector product loop */ 
for {i = 0; i < dim; i++) 
for (] = 0; i «< dim; j++) 
clil += afil[ * b([j}); 


2.4 续 上 题 ， 将 两 个 4K x 4K 稠 密 矩 阵 相 乘 。 如 果 采 用 三 三重 循环 的 点 积 公式 ， 那么 可 获得 
的 峰值 性 能 是 多 少 ? (假设 矩阵 按 以 行为 主 的 方式 排列 。) 


1 /* matrix-matrix product loop */ 

2 for (i = 0; i < dim; i++) 

3 for (] = 0; i < dim; j++) 

4 for (k = 0; k < Gim; K++) 

5 cli] (ji] += al[li] [kj * b[k] 0j]; 


人 


2.5 ”重组 矩阵 相 乘 算法 ， 世 获得 更 好 的 高 速 缓存 性 能 。 缺 少 空间 本 地 性 是 矩阵 相 乘 算法 
性 能 较 差 的 最 直接 原因 。 有 时 候 ， 从 内 存 中 取出 的 4 个 字 中 有 三 个 被 浪费 了 。 为 了 解决 这 个 问 
题 ， 我 们 每 次 让 结果 矩阵 的 元 素 计算 4 次 。 用 这 种 方法 ， 只 须 简 单 地 重组 程序 就 可 提高 FLOP 
次 数 。 然而， 性 能 还 可 以 有 更 大 的 提升 。 我 们 可 以 把 矩阵 相 委 问 题 看 作 是 一 个 立方 体 ， 每 一 
个 内 部 网 格 点 与 一 次 乘法 -加 法 运算 对 应 。 和 矩阵 相 先 算法 以 不 同 的 方式 模 穿 立方 体 ， 就 得 出 了 
对 立方 体 的 不 同 划分 。 用 于 计算 分 区 的 数据 随 着 分 区 的 输入 面 的 表面 积 增 大 而 增加 ， 而 计算 
随 着 分 区 的 体积 增 大 而 增加 。 上 面 讨论 的 算法 从 立方 体 中 切 出 薄片 ， 使 得 产生 的 面积 与 体积 
相当 《这 导致 很 差 的 高 速 缓存 性 能 )。 为 弥 补 这 一 缺陷 ， 可 将 立方 体 分 成 三 个 Ex 和 x 大 的 子 立 
方 体 对 计算 进行 重组 。 与 每 个 立方 相关 的 数据 为 3 x 已 (每 个 矩阵 已 数据 ) ， 计 算 量 为 如 。 只 有 
当 3 x 大 等 于 8K 时 才能 达到 最 佳 性 能 ， 因 为 8K 为 可 用 高 速 缓 存 的 大 小 (这 里 假设 与 习题 2.2 中 
的 各 个 计算 机 参数 相同 )。 这 对 应 于 k = 51。 与 该 立方 体 相对 应 的 运算 为 132 651 次 乘法 -加 法 
运算 或 265 302 次 浮 点 操作 。 为 进行 这 个 计算 ， 需 用 两 个 51 x 5 的 子 矩 阵 ， 对 应 于 $202 个 字 或 
1301 个 高 速 缓存 行 。 对 这 些 高 速 缓存 行 存 取 需 用 130 100 纳 秒 ， 因 为 265 302 次 浮 点 运算 在 
130 100 纳 秒 内 完成 ， 故 峰值 计算 速度 为 2.04 GFLOPS。 对 该 例 编写 代码 ， 并 画 出 性 能 作为 的 
困 数 曲线 。( 可 在 任意 普通 计算 机 上 编程 。 务 必 注 意 微 处 理 器 类 型 、 时 钟 频率 以 及 各 级 可 用 高 
速 缓存 的 大 小 。) 

2.6 考虑 一 个 具有 分 布 式 共享 地 址 空间 的 SMP， 它 的 一 个 简单 成 本 模型 为 : 访问 本 地 高 
速 缓存 需 10 纳 秒 ， 访 问 本 地 内 存 为 100 纳 秒 ， 访 问 远程 内 存 为 400 纳 秒 。 某 一 并 行程 序 运行 于 
该 计算 机 上 ， 程 序 负 载 均衡 ， 存 取 的 80% 是 对 本 地 高 速 缓 存 ，10% 对 本 地 内 存 ，10% 对 远程 内 
存 。 这 个 计算 的 有 效 内 存 访问 时 间 是 多 少 ? 如果 计 算是 内 存 受 限 的 ， 那么 峰值 计算 速度 是 多 
少 ? 

再 考虑 在 一 个 处 理 器 土 的 同样 计算 。 这 里 ， 处 理 器 70% 的 时 间 命中 高 速 缓 存 ，30% 的 时 间 
命中 本 地 内 存 。 单 一 处 理 器 的 有 效 峰值 计算 速度 是 多 少 ? 在 并 行 结 构 中 单一 处 理 器 的 计算 束 
度 与 串 行 结构 相 比 的 比值 是 多 少 ? 





提示 :; 多 处 理 器 的 高 速 缓存 命中 率 高 于 单 处 理 器 。 这 是 因为 多 个 处 理 右 上 的 累计 高 速 组 
存 大 于 单一 处 理 器 系统 的 高 速 缓存 。 

2.7 ”消息 传递 计算 机 和 共享 地 址 空间 计算 机 的 主要 区 别 是 什么 ”请 概括 出 两 者 的 优点 和 
缺点 。 

2.8 ”为 什么 很 难 构 建 真 正 的 共享 内 存 计算 机 ? 将 p 个 处 理 器 连接 到 b 个 字 的 共享 内 存 上 
(每 个 字 都 可 以 独立 存 取 )， 所 需 的 最 小 开关 数 是 多 少 ? 

2.9 ”在 4 种 PRAM 模 型 (EREW，CREW，ERCW 及 CRCW ) 中 ， 哪 种 模型 功能 最 强大 ? 
为 什么 ? 

2.10 [Lei92] 霸 形 网 络 (Butterfly network ) 是 含 log p 个 层 的 互连网 络 (与 omega 网 络 相 
似 )。 在 蝶 形 网 络 中 ， 在 层 ! 上 的 每 一 个 开关 节点 i 既 与 1+1 层 上 编号 相同 的 节点 相连 ， 又 与 编号 
与 目 己 只 在 第 ! 最 高 有 效 位 不 同 的 开关 节点 相连 。 因 此 ， 在 ! 层 ， 如 果 j = 王者 | = i @ (2 ?7!)， 
则 开关 节点 5; 与 5 相连 。 

图 2-34 为 8 个 处 理 节 点 的 蝶 形 网 络 。 证 明 蝶 形 网 络 与 omega 网 络 的 等 价 性 。 

提示 : 对 omega 网 络 的 开关 节点 重 排 ,使 之 看 上 去 像 蝶 形 网 络 。 
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图 2-34 含 8 个 处 理 节点 的 蝶 形 网 络 


2.11 在 2.4.3 节 讲 到 的 omega 网 络 是 拥塞 网 络 (就 是 说 ， 当 某 处 理 器 使 用 网 络 访问 某 一 内 
存单 元 时 会 妨碍 另 一 处 理 器 访问 另 一 内 存单 元 )。 设 omega 网 络 中 有 p 个 处 理 器 ， 定 义 一 个 函数 


f， 将 P = [0，1，.…，p--1] 映 射 到 P 的 一 个 置换 P' 上 ( 即 对 所 有 的 0< i <p 有 P'[i] = f (P[ 引 ]) 和 
P'[JEP)。 将 此 消 数 看 作 是 处 理 器 的 通信 请 求 映 射 ， 即 处 理 器 P[i 请 求 与 P'[] 通 信 。 
1) 有 多 少 个 不 同 的 置换 函数 存在 ? 


2) 这 些 函 数 中 有 多 少 个 函数 导致 非 拥 塞 通 信 ? 

3) 任意 一 个 函数 导致 非 拥 塞 通信 的 概率 是 多 少 ? 

2.12 在 图 中 ， 如 果 某 一 路 径 的 起 点 和 终点 相同 ， 则 该 路 径 称 为 圈 。 围 的 长 度 是 园 中 边 的 
数目 之 和 。 证 明 在 d 维 超 立 方 体 中 不 存在 长 度 为 奇数 的 圈 。 

2.13 4d 维 超 立 方 体 中 的 标号 使 用 4d 位。 如 果 对 这 些 位 中 的 k 位 固定 ， 证 明 标号 在 剩余 dk 
个 位 置 上 不 同 的 节点 构成 一 个 含 2<% 个 节点 的 (dh) 维 子 立方 体 。 
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2.14 ” 设 4 和 8 为 4 维 超 立方 体 中 的 两 个 节点 。 定 义 H(4, B) 为 4 和 8B 之 间 的 Hamming 距 离 ， 
P(4, B8) 为 连接 A 和 B 的 不 同 路 径 的 数 日 。 这 些 路 径 称 为 并 行路 径 ， 并 且 除 了 A 和 B 之 外 ， 没 有 共 
同 的 节点 。 试 证 明 下 面 4 个 结论 : 

1) A 和 B 之 间 以 通信 和 链 路 表示 的 最 小 距离 由 H(A4, B) 给 出 。 

2) 任意 两 个 节点 间 的 并 行路 径 总 数目 为 P(A4, B) = d。 

3) A 和 8B 之 间 长 度 为 H(A, B) 的 并 行路 径 数 目 为 Picw p.m(A4,B) = H(A, 有)。 

4) 剩余 的 d-H(4, B) 条 并 行路 径 的 长 度 为 H(A, B) +2。 

2.15 ”在 超 立 方 体 对 分 带宽 的 非 形式 推导 中 ， 我 们 用 超 立方 体 的 结构 证 明 ，d 维 超 立 方 体 
可 由 两 个 (d-1) 维 的 超 立 方 体 构成 。 我 们 证 明 ， 由 干 这 些 子 立方 体 中 相应 的 节点 有 直接 的 链 路 ， 
共有 2d-1 条 链 路 越过 划分 。 但 是 ， 可 以 将 超 立 方 体 分 成 两 部 分 ， 使 得 两 个 划分 都 不 是 超 立 方 

[79|] 体 。 证 明 任意 这 样 一 种 划分 ， 在 它们 之 间 都 有 超过 24-1 条 链 路 存在 。 

2.16 [MKRS88] Vp xVp 可 重 排 格 网 (reconfigurable mesh) 由 Vp x VP 个 处 理 节点 阵 
列 组 成 ， 它 们 与 网 格 形 的 可 重 排 广播 总 线 相连 接 。 图 2-35 所 示 为 4 x 4 可 重 排 格 网 ， 每 个 节点 
都 有 本 地 可 控制 总 线 开 关 。 在 北 (N)、 东 (E)、 西 (W) 与 南 (S$) 4 个 端口 间 的 内 部 连接 可 
在 算法 的 执行 过 程 中 设 定 。 注 意 有 15 种 连接 方式 。 例 如 ，{SW，EN} 表 示 端 口 $ 与 端口 W 相 连 ， 
并 且 端口 N 与 端口 E 相 连 。 在 任何 时 刻 ， 总 线 上 的 每 一 位 都 带 有 一 位 1- 信 号 或 0- 信 号 。 开 关 可 
以 让 广播 总 线 分 成 子 总 线 ， 提 供 更 小 的 可 重 排 格 网 。 对 于 给 定 的 一 组 开关 设置 ， 子 总 线 
(subbus) 是 最 大 相连 的 节点 的 子 集 。 不 同 于 总 线 和 开关 ， 可 重 排 格 网 与 标准 的 二 维 格 网 类 似 。 
假定 在 任意 时 刻 ， 只 允许 有 一 个 节点 在 多 个 节点 共享 的 子 总 线 上 广播 。 

对 于 一 个 由 Vp x Vp 个 处 理 节 点 组 成 的 可 重 排 格 网 ， 确 定 其 对 分 带宽 、 直 径 、 开 关节 点 
数目 以 及 通信 和 链 路 数目 。 与 环绕 格 网 相 比 ， 可 重 排 格 网 的 优点 和 缺点 是 什么 ? 





图 2-35 可 重 排 格 网 的 开关 连接 模式 


2.17 [Lei92] 树 格 网 是 用 树 状 连接 将 一 个 网 格 上 的 处 理 节 点 互 连 的 一 种 网 络 。 Vp x Vp 
树 格 网 按 如 下 方法 构成 : 从 Vp x Vp 网 格 开始 ， 对 网 格 的 每 一 行 构建 一 个 完全 二 又 树 。 然 后 
再 对 每 一 列 构建 一 个 完全 二 叉 树 。 图 2-36 展 示 4 x 4 树 格 网 的 构成 。 假 设 中 间 层 为 开关 节点 。 
[80] 确定 Vp x Vp 树 格 网 的 对 分 宽度 、 直 径 以 及 开关 节点 总 数 。 
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c) d) 
图 2-36 4 x 4 树 格 网 的 构成 : a) 4 x 4 网 格 ; b) 对 每 一 行 构建 的 
完全 二 叉 树 ; c) 对 每 一 列 构 建 的 完全 二 叉 树 ; 
d) 完全 4 x 4 树 格 网 


2.18 [Lei92] 推 广 二 维 树 格 网 (习题 2.17) 至 d 维 ， 以 构建 px px… x p' 的 树 格 网 。 
构成 方法 如 下 : 在 所 在 维 上 把 网 格 位 置 固定 成 不 同 的 值 ， 在 变化 的 一 维 中 构建 一 棵 完全 二 又 
树 。 

试 求 出 px px… x p” 树 格 网 中 开关 节点 的 总 数 。 计 算 直 径 、 对 分 宽度 以 及 由 总 线路 
数 表 示 的 线路 成 本 。 与 环绕 格 网 相 比 ， 树 格 网 的 优点 与 缺点 是 什么 ? 

2.19 [Lei92] 与 树 格 网 相关 的 网 络 是 4d 维 金字 塔 格 网 (pyramidal mesh ) 。d 维 金字 塔 格 网 
通过 在 处 理 节点 网 格 上 构建 金字 塔 而 成 (与 树 格 网 的 完全 树 相反 )。 产 生 方 法 如 下 : 在 树 格 网 
中 ， 固 定 除 一 维 以 外 的 所 有 维 ， 树 就 在 剩 下 的 这 维 上 构建 。 在 金字 塔 中 ， 固 定 除 两 维 以 外 的 
所 有 维 ， 人 金字塔 就 构建 在 由 这 两 维 构成 的 格 网 上 。 在 树 中 ，k 层 的 每 个 节点 i 与 -1 层 的 节点 i/2 
相连 。 同 样 ， 在 金字 塔 中 ,Kk 层 的 节点 (i, 让 与 k-1 层 的 节点 (i/2, j/2) 相 连 。 而 且 ， 每 一 层 的 节点 
都 连 到 一 个 格 网 上 。 图 2-37 为 二 维 金 字 塔 格 网 。 z 

对 于 Vp x Vp 金字 塔 格 网 ， 假 设 中 间 节 点 为 开关 节点 ， 试 导出 直径 、 对 分 宽度 、 弧 连通 
率 以 及 以 由 通信 链 路 和 开关 节点 数目 表示 的 成 本 。 与 树 格 网 相 比 ， 金 字 塔 格 网 的 优点 和 缺点 
是 什么 ? 
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图 2-37 4 x 4 金字 塔 格 网 


2.20 [Lei92] 超 立方 体 连接 网 络 的 缺点 之 一 是 网 络 中 的 线路 长 度 不 同 ， 即 数据 在 不 同 的 
链 路 上 传输 所 花 的 时 间 不 同 。 很 明显 ， 二 维 环绕 格 网 也 存在 这 种 缺点 。 然 而 ， 用 定 长 的 线路 
也 能 够 构建 二 维 环绕 。 请 画 出 这 样 的 4 x 4 环绕 说 明 这 种 布局 。 

2.21 说明 如 何 将 p 个 节点 的 三 维 格 网 嵌入 到 p 节 点 的 超 立 方 体 中 。 这 种 嵌入 允许 p 取 什么 
值 ? 

2.22 说 明 如 何 将 p 个 节点 的 树 格 网 嵌入 p 个 节点 的 超 立 方 体 中 。 

2.23 ”考察 一 个 含 24-1 个 节点 的 完全 二 叉 树 ， 它 的 每 个 节点 都 是 处 理 节 点 。 该 树 向 d 维 超 
立方 体 的 最 小 膨胀 度 映射 是 什么 ? 

: 2.24 最 小 拥塞 度 映 射 (minimum congestion mapping) 是 很 有 用 的 概念 。 考 虚 两 台 采 用 
不 同 互连网 络 的 并 行 计算 机 ， 存 在 从 第 一 台 计 算 机 向 第 二 台 计 算 机 的 拥塞 度 为 /的 映射 。 不 考 
虑 映射 的 膨胀 度 ， 如 果 第 二 台 计 算 机 的 每 条 通信 和 链 路 比 第 一 台 快 倍 以 上 ， 则 第 二 台 计算 机 严 
格 地 优 于 第 一 台 。 

现在 将 d 维 超 立 方 体 映 射 到 2 人 节点 的 格 网 上 。 不 考虑 映射 的 膨胀 度 ， 从 超 立 方 体 到 格 网 的 
最 小 拥塞 度 映 射 是 什么 ?利用 求 出 的 结果 ， 判 断 链 路 速度 为 25M 字 节 每 秒 含 1024 节 点 的 格 网 
的 性 能 是 否 严 格 地 优 于 链 路 速度 为 2M 字 节 每 秒 含 1024 节 点 的 超 立方 体 (其 节点 与 格 网 中 使 用 
的 相同 ) ? 

2.25 ”导出 含 p 个 节点 的 k 元 4 立方体 的 直径 、 链 路 数目 以 及 对 分 带宽 。 车/ 为 网 络 中 任意 
两 个 节点 间 的 平均 距离 ， 试 求 出 k 元 4d 立方 体 的 1,。 

2.26 ” 若 并 行 计算 机 使 用 存储 转发 路 由 选择 。 大 小 为 m 的 消息 经 长 度 为 4 的 路 径 从 P,, 传 
送 到 Puswunom 的 成 本 为 + tx d x m。 一 种 可 替代 的 传送 大 小 为 m 的 消息 的 方法 如 下 : 将 消息 分 
成 k 部 分 ， 每 部 分 的 大 小 为 m/k， 然 后 将 这 k 个 不 同 的 消息 一 个 接 一 个 地 从 Pow。 传 送 到 Ponaion。 
对 于 这 种 新 方法 ， 在 下 面 两 种 情况 下 ， 导 出 将 大 小 为 m 的 消息 传送 到 d 站 以 外 所 需 时 间 的 表达 

) 假设 在 路 径 中 ， 当 前 一 条 消息 到 达 下 一 个 节点 后 ， 另 一 条 消息 就 能 从 P 发出。 

,) 假设 只 有 当前 一 条 消息 到 达 Pzcssnwion 后 另 一 条 消息 才能 从 Pi 发 出 。 

对 于 每 种 情况 ， 当 x 的 值 在 1 和 m 之 间 变 化 时 ， 试 讨论 表达 式 的 值 如 果 4 很 大 ， 或 者 /, = 0 
时 ，k 的 最 优 值 是 多 少 ? 

2.27 ”对 p 个 入 点 的 超 立 方 体 网 络 ， 假 设 每 个 通信 链 路 的 通道 宽度 为 1 使 k 元 4 立方体 (4d < 
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log PP) 网 络 与 超 立 方 体 的 成 本 相等 ， 可 增加 Kk 元 4 立方 体 中 链 路 的 通道 宽度 。 现 使 用 下 面 两 种 不 
同 的 度量 来 估计 网 络 的 成 本 : / 

1 ) 以 网 络 中 总 的 线路 数量 表示 成 本 (线路 总 数 是 通信 链 路 数目 和 通道 宽度 的 乘积 )。 

2) 用 对 分 带宽 作为 成 本 的 度量 。 

利用 上 面 的 两 种 度量 ， 再 令 k 元 d 立 方 体 与 超 立 方 体 的 成 本 相同 ， 求 出 具有 同样 节点 数 、 
通道 速度 以 及 成 本 的 K 元 4 立方 体 的 通道 宽度 。 

2.28 ”习题 2.25 和 2.27 的 结果 可 用 来 对 静态 互连网 络 作 成 本 性 能 分 析 。 考 虑 直通 路 由 选择 
Pp 市 扩 kK 元 d 六 方 体 网 络 。 设 含 p 个 节点 的 超 立 方 体 连 接 网 络 的 通道 宽度 为 1。 将 其 他 网 络 的 通道 
宽度 按 比 例 提高 ， 直 到 其 成 本 与 超 立 方 体 的 相同 。 设 s 和 s' 为 习题 2.27 中 两 种 不 同 度量 下 使 成 
本 相等 导出 的 通道 宽度 的 比例 因子 。 对 于 这 两 个 因子 ， 将 任意 两 个 节点 间 的 通信 时 间 表 达成 
元 d 订 方 体 中 的 维 数 (d) 及 布点 数目 的 函数 。 在 消息 m 大 小 为 512 字 节 ，i, =50.04s, t= 加 = 
0.54s (对 超 立 方 体 ) 时 ， 分别 对 p = 236，P = 512 以 及 p = 1024 求 出 通信 时 间 与 维 数 的 函数 表 
达 式 。 对 于 上 面 给 出 的 p 和 m， 在 给 定 成 本 的 条 件 下 ， 维 数 多 大 时 性 能 最 好 ? 

2.29 若 选 用 存储 转发 路 由 选择 ， 对 Kk 元 d 立 方 体 重 做 习题 2.28.。 











第 3 章 并 行 算法 设计 尿 则 


算法 设计 是 借助 计算 机 解决 问题 的 一 个 关键 部 分 。 串 行 算法 实质 上 是 用 串 行 计算 机 解决 
问题 的 方法 或 基本 步 又 序列 。 与 此 类 似 ， 并 行 算法 讲述 的 是 怎样 用 多 处 理 器 解决 问题 。 然 而 ， 
设计 并 行 算法 远 不 仅仅 是 详细 说 明 这 些 步 骤 。 至少， 一 个 并 行 算法 增加 了 并 发 性 的 维 ， 设 计 
者 必须 指定 能 同时 执行 的 步骤 集 。 为 了 从 使 用 并 行 计算 机 获得 性 能 上 的 好 处 ， 这 是 必 不 可 少 
的 。 在 实践 中 ， 设 计 一 个 非 平 凡 的 并 行 算法 包括 下 面 某 些 步 又 或 者 所 有 的 步 喉 : 

* 识别 能 并 发 执行 的 任务 部 分 。 

“映射 各 并 发 任务 块 到 并 行 运行 的 多 处 理 器 上 。 

* 分布 与 程序 有 关 的 输入 、 输 出 和 中 间 数 据 。 

* 管理 对 由 多 处 理 器 共享 的 数据 的 访问 。 

* 在 并 行程 序 执行 的 各 个 阶段 对 处 理 器 进行 同步 。 

上 面 的 每 个 步骤 都 有 几 种 选择 ， 但 通常 只 有 很 少 的 选择 组 合 所 得 到 的 并 行 算法 ， 能 够 产 
生 与 要 解决 问题 所 用 的 计算 和 存储 资源 相 匹 配 的 性 能 。 一 般 地 ， 在 不 同 并 行 体系 结构 或 不 同 
并 行 编程 模式 中 要 取得 最 佳 性 能 ， 要 使 用 不 同 的 选择 组 合 。 

在 本 章 中 ， 将 系统 地 讨论 设计 和 实现 并 行 算法 的 过 程 。 我 们 假定 提供 并 行 算 法 或 程序 的 
完整 描述 是 程序 员 或 算法 设计 者 的 责任 。 在 目前 技术 水 平 下 ， 自 动 并 行 化 的 工具 和 编译 器 只 
能 在 高 度 结构 化 的 程序 或 部 分 程序 中 良好 地 运行 。 因 此 ， 本 章 及 本 书 的 其 他 部 分 都 不 讨论 有 
关 这 方面 的 内 容 。 本 


3.1 预备 知识 


将 计算 划分 成 许多 小 的 计算 ， 再 把 它们 分 配 到 不 同 处 理 器 中 以 便 并 行 执行 ， 这 是 并 行 算 
法 设计 中 的 两 个 关键 步骤 。 在 给 出 一 些 基 本 术语 定义 之 后 ， 将 通过 使 用 和 矩阵 向 量 相 乘 和 数据 
库 查 询 处 理 这 两 个 实例 ， 来 介绍 并 行 算法 设计 的 这 两 个 关键 步骤 。 


3.1.1 分解、 任务 与 依赖 图 


把 一 个 计算 分 为 很 多 小 的 部 分 ， 其 中 的 一 些 或 所 有 部 分 都 可 能 被 并 行 执行 ， 该 划分 过 程 
称 为 分 解 〈decomposition )。 任 务 (task) 是 程序 员 定义 的 计算 单元 ， 其 中 为 主要 计算 通过 分 
解 得 到 的 划分 。 减 少 解决 整个 问题 所 需 时 间 的 关键 是 多 任务 同时 执行 。 任 务 可 以 是 任意 大 小 
的 ， 但 是 一 且 定 义 好 ， 就 被 认为 是 不 可 再 划分 的 计算 单元 。 由 问题 分 解 出 的 任务 大 小 可 能 并 
不 相同 。 


例 3.1 简 密 和 矩阵- 向量 相 乘 


考虑 一 个 n x nm 稠密 矩阵 4 与 向 量 5 的 相 乘 ， 得 到 向 量 ?。y 的 第 ;个 元 素 ?[] 是 矩阵 4 的 第 六 与 
向 量 b 的 点 积 ， 即 y[i] = ”A[i, 有 ] .5 四 。 如 图 3-1 所 孙 ， 对 每 一 个 ?四 的 计算 可 作为 一 个 任务 。 
另外 ， 如 图 3-4 所 示 ， 计 算 也 可 分 解 成 较 少 的 任务 ， 如 4 个 任务 ， 这 样 每 一 个 任务 计算 的 仅 是 


04 徊 了 旭 


向 量 y 的 n/4 部 分 。 赔 





任务 1 










n—l 


任务 n 





图 3-1 分 解 秽 密 矩阵 -向 量 相 乘 为 n 个 任务 ， 其 中 为 矩阵 的 
行 数 。 由 任务 1 访问 的 矩阵 和 输入 输出 向 量 的 
部 分 在 图 中 用 高 灰 度 显示 


注意 ， 图 3-1 中 的 所 有 任务 都 是 独立 的 ， 可 同时 执行 ， 也 可 以 按 任意 顺序 执行 。 然 而 ， 通 
常情 况 下 ， 有 一 些 任务 可 能 需要 使 用 别 的 任务 所 产生 的 数据 ， 这 样 就 要 等 到 这 些 数 据 产生 后 
再 执行 。 我 们 用 任务 依赖 图 (task-dependency graph) 抽象 表示 任务 间 的 依赖 关系 和 任务 的 执 
行 次 序 关 系 。 任 务 依赖 图 是 一 种 有 向 无 环 图 ， 其 中 的 节点 表示 任务 ， 有 向 边 就 代表 节点 间 的 
依赖 性 。 对 应 于 一 个 节点 的 任务 ， 只 有 当 与 此 节点 相连 的 输入 边 相 连 的 所 有 任务 都 执行 完毕 
才能 执行 。 注意， 任务 依赖 图 可 以 是 不 连接 的 ， 它 的 边 集 也 可 能 是 空 的 。 和 矩阵 -向 量 相 乘 就 属 
于 这 种 情况 ， 每 一 个 任务 都 计算 乘积 项 的 一 个 子 集 。 下 面 的 数据 库 查询 处 理 是 一 个 更 加 有 趣 
的 任务 依赖 图 的 例子 。 


例 3.2 数据 库 查 询 处 理 


表 3-1 显 示 汽 车 的 一 个 关系 型 数据 库 。 表 中 的 每 一 行 对 应 于 一 种 品牌 汽车 的 数据 记录 ， 如 
ID、model (型 号 ) 、year (年 份 )、color (颜色 ) 等 。 考 虑 处 理 下 面 查 询 时 的 计算 : 
MODEL="Civic" AND YEAR="2001" AND (COLOR="Green” OR COLOR="White”) 


这 个 查询 寻找 所 有 的 2001 的 Civics 型 汽车 ， 颜 色 是 Green (绿色 ) 或 White (白色 )。 在 关 
系 型 数据 库 中 ， 这 种 查询 通过 建立 许多 中 间 表 来 完成 。 一 种 可 行 的 方法 是 ， 首 先 建立 下 面 4 张 
表 : Civics 汽 车 表 、2001 年 汽车 表 、 绿 色 汽车 表 以 及 白色 汽车 表 。 下 一 步 ， 通 过 成 对 地 求 交 和 集 
或 并 集 求 出 每 两 张 表 的 组 合 。 如 通过 计算 Civic 表 和 2001 年 表 的 交集 得 到 一 张 2001.Civics 表 。 
同样 ， 通 过 计算 绿色 表 和 白色 汽车 表 的 并 集 得 到 一 张 汽车 颜色 为 绿色 或 者 白色 的 所 有 汽车 表 . 
最 后 计算 这 两 张 表 的 交集 就 能 得 到 需要 的 表 。 区 


在 例 3.2 中 ， 处 理会 询 时 用 到 的 多 种 计算 可 以 形象 地 显示 在 图 3-2 的 任务 依赖 图 中 。 图 中 的 
每 一 个 节点 是 一 个 任务 ， 这 些 任务 对 应 的 是 需要 通过 计算 求 出 的 中 间 表 ， 节点 之 间 的 箭头 表 
不 任务 间 的 依赖 性 。 例 如 ， 在 计算 对 应 于 2001-Civics 的 表 之 前 ， 必 须 首先 计算 Civics 表 和 2001 
年 表 。 





表 3-1 存储 使 用 汽车 信息 的 一 个 数据 库 


ID# Model (型 号 ) Year (年 份 ) Color (颜色 ) Dealer ( 销售 商 ) Price (价格 ) 
4523 Civic 2002 Blue MN $18,000 
3476 Corolla 1999 White IL $15,000 
7623 Camry 2001 Green NY $21,000 
9834 Prius 2001 Green CA $18,000 
6734 Civic 2001 White OR $17,000 
5342 Altima 2001 Green FL 4$19.000 
3845 Maxima 2001 Bjlue NY $22.000 
8354 Accord 2000 Green VT $18.000 
4395 Civic 2001 Red CA $17,000 
7352 Civic 2002 Red WA $18,000 






_ID#_|Model 


4523 | Civic 
6734 | Civic 
4395 | Civic 
7332 | Civic 











Civic AND 2001 AND (White OR Green) 


ID# | Model , Year| Color 
6734 | Civic | 2001 | White | 


图 3-2 数据 查询 操作 中 不 同 的 表 及 它们 之 间 的 依赖 性 


注意 ， 表 示 特 定 的 计算 可 采用 多 种 方法 ， 尤 其 是 那些 包含 结合 操作 符 的 计算 ， 如 加 法 、 
乘法 、 逻 辑 与 以 及 逻辑 或 。 不 同方 式 的 计算 得 到 具有 不 同 特征 的 任务 依赖 图 。 比 如 ， 在 例 3.2 8] 
的 数据 查询 中 ， 可 以 首先 计算 一 张 绿色 汽车 或 白色 汽车 表 ， 然 后 计算 一 张 绿 色 汽车 或 白色 汽 
车 表 和 2001 (年 份 ) 表 的 交集 表 ， 最 后 再 计算 此 交集 表 与 Civic 表 的 交集 。 这 个 计算 序列 得 到 
的 任务 依赖 图 如 图 3-3 所 示 。 


3.1.2 粒度 、 并 发 性 与 任务 交互 


分 解 问题 得 到 的 任务 数量 和 大 小 决定 了 分 解 的 粒度 (granularity )。 将 任务 分 解 成 大 量 的 
细小 任务 称 为 细 粒 度 (fine-grained )， 而 将 任务 分 解 成 少量 的 大 任务 称 为 粗 粒 度 (coarse- 
grained )。 例 如 ， 图 3-1 所 示 的 矩阵 -向 量 相 乘 就 是 细 粒 度 分 解 ， 因 为 很 大 数量 的 任务 执行 一 个 






66 各 了 全 


简单 的 点 积 操作 。 图 3-4 中 的 分 解 则 属于 粗 粒度 分 解 ， 它 将 同样 问题 分 解 为 4 个 任务 ， 每 一 个 
任务 计算 ” 维 输出 癌 量 的 my4。 
_ID# | Model 


| 
4523 | Civic 
6734 | Civic 
4395 | Civic 
7352 | Civic 












2001 AND (White or Green) 





Civic AND 2001 AND (White OR Green) 


ID# | Model | Year| color 
6734 | Civic | 2001 | whie 
图 3-3 数据 查询 处 理 操作 的 另 一 数据 依赖 图 


任务 1 
任务 2 


任务 3 


任务 4 





图 3-4 稠密 矩阵 -向 量 的 相 乘 分 解 为 4 个 任务 。 由 任务 1 访问 的 
矩阵 和 输入 输出 向 量 部 分 在 图 中 用 高 灰 度 显示 


并 发 度 (degree of concurrency) 是 与 粒度 相关 的 概念 。 关 行程 序 中 ， 任意 时 刻 可 同时 执 
行 的 最 大 任务 数 称 为 最 大 并 发 度 。 由 于 任务 间 的 相互 依赖 性 ， 在 大 部 分 情况 下 ， 最 大 并 发 度 
总 是 小 于 总 的 任务 数量 。 例 如 ， 图 3-2 和 图 3-3 中 的 最 大 并 发 度 是 4。 在 这 些 任务 图 中 ， 同 时 计 
算出 Civics、2001、Green 以 及 White 4 张 表 时 ， 就 可 获得 最 大 并 发 度 。 一 般 情况 下 ， 对 于 树 形 
任务 的 依赖 图 ， 最 大 并 发 度 总 是 等 于 此 树 的 叶子 数 。 





平均 并 发 度 是 与 并 行程 序 性 能 有 关 的 一 个 更 有 用 的 指标 ， 它 是 程序 执行 的 整个 过 程 中 能 
并 发 运行 的 任务 平均 数 。 

最 大 和 平均 并 发 度 通常 都 会 随 着 划分 的 任务 粒度 的 减 小 ( 变 细 ) 而 增加 。 例 如 ， 图 3-1 中 
的 年 阵 - 回 量 相 乘 分 解 具 有 很 小 的 粒度 和 很 大 的 并 发 度 。 图 3-4 中 的 同样 问题 则 具有 更 大 的 粒 
度 和 更 小 的 并 发 度 。 

并 发 度 也 依赖 于 任务 依赖 图 的 形状 ， 通 常 ， 同 样 的 粒度 并 不 能 确保 同样 的 并 发 度 。 例 如 ， 
等 虑 网 3-5 中 的 两 个 任务 图 ， 它 们 是 任务 图 3-2、 图 3-3 的 抽象 (习题 3.1)。 每 个 节点 上 的 数字 
代表 完成 相应 任务 所 需要 的 工作 量 。 在 图 3-5a 的 任务 图 中 ,平均 并 发 度 是 2.33, 但 在 图 3-5b 中 ， 
任务 图 的 平均 并 发 度 是 1.88 (习题 3.1)， 虽 然 这 两 个 任务 依赖 图 都 是 基于 同一 分 解 。 

关键 路 径 (critical path) 是 任务 依赖 图 的 另 一 个 特性 ， 它 决定 一 个 给 定 粒度 的 任务 依赖 
图 的 平均 并 发 度 。 在 一 个 任务 依赖 图 中 ， 我 们 把 没有 输入 边 的 节点 称 为 起 始 节点 ， 把 没有 输 
出 边 的 方 点 称 为 终止 节点 ， 任 何 一 对 起 始 节 点 和 终止 节点 之 间 的 最 长 有 向 路 径 就 是 关键 路 径 。 
关键 路 径 上 所 有 节点 的 权 之 和 称 为 关键 路 径 长 度 ， 其 中 ， 节 点 的 权 是 相应 任务 有 关 的 工作 量 
或 任务 的 大 小 。 总 工作 量 与 关键 路 径 长 度 的 比 就 是 平均 并 发 度 。 因 此 较 短 的 关键 路 径 有 利于 
达到 较 高 的 并 发 度 。 例 如 ， 在 图 3-5a 所 示 的 任务 依赖 图 中 ， 关 键 路 径 长 度 为 27， 而 在 图 3-5b 所 
示 的 任务 依赖 图 中 ， 关 键 路 径 长 度 为 34。 由 于 使 用 两 种 分 解 求解 问题 的 总 工作 量 分 别 是 63 和 
64， 爽 个 任务 依赖 图 的 平均 并 发 度 分 别 是 2.33 和 1.88 。 


任务 4 任务 3 任务 2 任务 1 任务 4 任务 3 任务 2 任务 1 





a) ~ b) 
图 3-5 对 应 任务 图 3-2 和 3-3 的 抽象 用 


虽然 通过 增加 分 解 的 粒度 和 利用 所 产生 的 并 发 度 似乎 可 以 并 行 执行 越 来 越 多 的 任务 ， 以 
减少 求解 一 个 问题 所 需 的 时 间 ， 但 实际 上 并 非 总 是 如 此 。 通 常 对 于 某 一 问题 ， 都 有 它 自 己 固 
有 的 细 粒 度 分 解 限度 。 例 如 ， 在 图 3-1 的 矩阵 -向 量 相 乘 有 避 个 乘法 和 加 法 ， 即 使 使 用 最 小 的 
细 粒 度 分 解 ， 问 题 也 不 能 被 分 解 成 多 于 O(n?) 个 任务 。 

除了 有 限 的 粒度 和 并 发 度 之 外 ， 还 有 一 个 重要 因素 ， 使 我 们 不 能 从 并 行 化 获得 不 受 限 的 
加 速 比 ( 串 行 执行 时 间 与 并 行 执行 时 间 的 比率 )。 此 因素 是 运行 在 不 同 物理 处 理 器 上 的 任务 之 
间 的 交互 (interaction )。 问 题 分 解 得 到 的 任务 通常 要 共享 输入 、 输 出 或 者 中 间 数 据 。 任 务 依 
粹 图 中 的 依赖 性 通常 源 自 -- 个 事实 : 某 个 任务 的 输出 是 另外 一 个 任务 的 输入 。 例 如 ， 在 数据 
售 询 的 例子 中 ,任务 共享 中 间 数 据 ; 一 个 任务 产生 的 表 被 另外 一 个 任务 作为 输入 。 根 据 对 任 
务 的 定义 以 及 并 行 编程 模式 ， 在 任务 依赖 图 中 ,表面 上 独立 的 任务 间 可 能 存在 着 相互 交互 。 
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例如 ， 在 和 矩阵- 向量 相 乘 的 分 解 中 ， 虽 然 所 有 的 任务 都 相互 独立 ， 但 它们 都 要 访问 整个 输入 问 
量 bp。 由 于 初始 时 只 有 向 量 b 的 一 个 副本 ， 在 分 布 式 存储 模式 中 ， 任 务 仍 必须 通过 发 送 和 接受 
消息 来 访问 癌 量 b。 

任务 之 间 的 交互 方式 通过 所 谓 的 任务 交互 图 (task-interaction graph ) 来 描述 。 任 务 交 互 
图 中 的 节点 代表 任务 ， 边 连接 彼此 交互 的 任务 。 如 果 任 务 交 互 图 中 ， 节 点 任务 的 计算 量 和 节 
点 间 的 交互 量 可 知 ， 那 么 节点 和 边 就 可 以 分 配 与 这 两 个 量 成 比例 的 权 值 。 任 务 交 互 图 中 的 边 
通常 是 无 向 的 ， 但 如 果 有 向 边 是 单 向 的 ， 就 可 以 用 有 向 边 指示 数据 的 流向 。 任 务 交互 图 中 的 
边 集合 通常 是 对 应 任务 依赖 图 边 集合 的 超 集 。 在 前 面 讨 论 的 数据 查询 例子 中 ， 任 务 交互 图 与 
任务 依赖 图 相同 。 下 面 给 出 一 个 更 加 有 趣 的 任务 交互 图 的 例子 ， 它 从 稀 足 矩阵 -向 量 相 乘 问题 
中 得 到 。 


例 3.3 黎 琉 矩阵 - 癌 量 相 乘 


考虑 计算 矩阵 -向 量 相 乘 问题 y》= 4b， 其 中 A 是 n x n 稀 下 矩 阵 ，0 是 ax 1 稠密 向 量 。 当 一 个 
矩阵 中 大 部 分 的 元 素 都 是 0， 且 0 元 素 的 分 布设 有 规律 ， 则 此 矩阵 就 是 稀疏 矩阵 。 通 常 ， 通 过 
加 免 0 元 素 参与 运算 ， 可 以 对 稀疏 矩阵 的 算术 运算 进行 优化 。 例 如 ， 要 计算 向 量 y 的 第 ;个 分 量 
yi = 了》 (4 月 xb) 时 ， 我们 只 需要 计算 当 A[i, 用 +0 时 A[i, 甩 x 5 四 的 积 。 例 如 ，y[0] = 
A[0, 0] : b[0] + A[O, 1] * b[1] + A[O, 4] : b[4] + A[0, 8] .258]。 

分 解 此 计算 的 一 种 方法 是 划分 结果 向 量 y， 并 让 每 一 个 任务 计算 一 个 分 量 。 图 3-6a 显 示 这 
种 分 解 。 除 了 把 对 输出 向 量 中 的 元 素 y[ 的 计算 分 配给 任务 ;以 外 ， 也 把 任务 ;作为 矩阵 4 的 第 ; 
行 A[i, 9] 及 输入 向 量 / 的 元 素 5 的 “拥有 者 "。 注 意 ， 对 y[ 的 计算 要 访问 由 其 他 任务 拥有 的 向 
量 b 中 的 多 个 元 素 。 这 样 ， 任 务 i 必须 从 适当 的 位 置 获得 这 些 元 素 。 在 消息 传递 模式 中 ， 作 为 
b[i] 的 拥有 者 ， 任 务 i 也 继承 发 送 b[ 到 需要 它 的 地 方 的 责任 。 例 如 ， 任 务 4 必须 发 送 b[4] 到 任务 
0，5，8 和 任务 9， 并 且 必 须 获得 b[0]，b[5]，b[8] 和 b[9] 来 执行 自己 的 计算 。 得 到 的 任务 交互 
图 显示 在 图 3-6b 中 。 中 


任务 0 





a) . 对 b) 


图 3-6 稀疏 矩阵 -向 量 相 乘 的 分 解 图 和 相应 的 任务 交互 图 。 
在 分 解 中 任务 ;计算 0< ;< 14041 jo 4Ali, 刘 "b[ 思 


任务 的 交互 和 有 限 的 并 行 性 ， 以 及 它们 对 并 行 算法 结构 组 众 的 性 能 和 扩展 性 的 影响 等 都 
会 造成 开销 ， 第 5 章 中 将 对 这 些 开 销 进行 详细 的 定量 分 析 。 设 计 并 行 算法 时 必须 仔细 考虑 这 些 
因素 ， 本 节 只 对 这 些 因素 作 了 基本 介绍 。 





3.1.3 ”进程 和 映射 


问题 分 解 后 ， 得 到 的 任务 运行 在 物理 处 理 器 上 。 然 而 ， 由 干 下 面 将 要 讲 到 的 一 些 原因 ， 
本 章 将 使 用 进程 (process) 来 表示 执行 任务 的 处 理 代理 或 计算 代理 。 本 文中 ， 术 语 “ 进 程 ”并 
不 严格 等 同 于 操作 系统 的 进程 定义 。 相 反 ， 进 程 只 是 一 个 抽象 的 实体 ， 在 并 行程 序 激 活 任务 
后 ， 它 利用 这 个 任务 的 代码 和 数据 在 有 限 的 时 间 内 产生 输出 结果 。 在 此 期 间 ， 进 程 不 仅 执行 
计算 ， 在 需要 的 时 候 还 与 其 他 进程 进行 同步 或 通信 。 为 了 获得 对 串 行 执行 的 加 速 ， 并 行程 序 
必须 同时 激活 一 些 进程 来 运行 不 同 的 任务 。 给 进程 分 派 任 务 的 机 制 称 为 映射 (mapping)。 例 
如 ， 在 例 3.5 的 矩阵 相 乘 中 ，4 个 进程 的 每 一 个 都 可 以 分 配 一 个 任务 ， 用 来 计算 矩阵 C 的 一 个 子 
矩阵 。 

由 对 分 解 得 到 的 任务 依赖 图 和 任务 交互 图 对 于 在 并 行 算法 中 选择 一 个 好 的 映射 方法 起 
着 至 关 重 要 的 作用 。 好 的 映射 方法 应 该 设法 把 相互 独立 的 任务 映射 到 不 同 的 进程 以 获取 最 大 
并 发 度 ; 好 的 映射 方法 应 该 确保 可 用 进程 来 执行 关键 路 径 上 的 任务 ， 以 使 得 任务 变 成 可 执行 
的 时 候 总 计算 时 间 最 短 ; 好 的 映射 方法 应 该 映射 相互 交互 的 平凡 的 任务 到 同一 个 进程 以 便 最 
小 化 进程 间 的 交互 。 但 是 ， 对 于 大 多 数 非 平凡 并 行 算法 来 说 ， 这 些 目标 是 相互 冲突 的 。 例 如 ， 
最 有 效 的 分 解 -映射 组 合 方法 是 把 单个 任务 上 映射 到 单个 进程 上 。 这 样 就 不 会 在 空闲 或 交互 中 浪 
费时 间 ， 但 同时 就 不 能 获得 加 速 。 对 于 一 个 成 功 的 并 行 算法 ， 找 到 整体 并 行 性 能 间 的 最 佳 平 
衡 是 关键 。 因 此 ， 映 射 任务 到 进程 的 方案 对 提高 并 行 算法 的 效率 起 着 重要 的 作用 。 即 使 并 发 
度 由 分 解决 定 ， 但 是 映射 方案 决定 了 实际 可 用 的 并 发 度 和 并 行 效率 。 


任务 4 任务 3 任务 2 





图 3-7 将 图 3-5 中 的 任务 图 映射 到 4 个 进程 


例如 ， 对 于 图 3-5 中 的 分 解 和 任务 交互 图 ， 图 3-7 显 示 映 射 它们 到 4 个 进程 的 有 效 映 射 。 注 
意 ， 这 种 情况 下 ， 虽 然 总 的 任务 数 是 7 个 ， 但 最 多 可 以 利用 这 4 个 进程 。 最 后 3 个 任务 可 以 映射 
到 任何 进程 上 ， 都 能 满足 任务 依赖 图 的 限制 。 然而 ， 更 有 意义 的 映射 是 把 由 边 相 连 的 任务 映 
射 到 同一 个 进程 上 ， 因为 这 样 才 能 防止 任务 间 的 交互 转变 为 进程 闻 的 交互 。 例如 ， 在 图 3-7b 
中 ， 如 果 任 务 5 上 映射 到 进程 P,， 那 进 程 Po 和 P, 都 需要 交互 ， 在 目前 的 映射 方案 中 ， 只 有 进 
程 Po 和 Pl 之 间 的 一 次 交互 。 所 


3.1.4 进程 与 处 理 器 
企 讲述 并 行 算法 设计 的 文字 中 ， 进 程 是 执行 任务 的 逻辑 计算 代理 。 处 理 器 是 实际 执行 计 
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算 的 硬件 部 件 。 这 本 书 中 ， 我 们 选用 术语 进程 来 表示 并 行 算法 和 程序 。 在 多 数 情况 下 ， 关 于 
并 行 算法 设计 的 文字 中 提 到 进程 时 ， 进 程 和 处 理 器 间 都 有 一 一 对 应 的 关系 ， 并 且 可 以 假定 进 
程 的 数量 和 并 行 计 算 机 上 的 CPU 的 数量 一 样 多 。 然 而 ， 有 时 候 可 能 要 从 更 高 的 抽象 层次 来 表 
达 某 一 个 并 行 算法 ， 尤 其 当 复杂 算法 具有 多 阶段 或 多 种 并 行 性 形式 的 时 候 。 

为 硬件 设计 支持 多 种 编程 模式 的 并 行程 序 时 ， 分 别处 理 进 程 和 处 理 器 也 是 很 有 用 的 。 例 
如 ， 若 一 台 并 行 计算 机 由 许多 计算 节点 组 成 ， 这 些 节点 之 间 通 过 消息 传递 进行 通信 ， 那 么 每 
个 节点 都 是 具有 多 CPU 的 共享 地 址 空间 模块 。 考 虑 在 这 样 的 并 行 计算 机 上 实现 矩阵 乘法 。 设 
计 一 个 并 行 算法 的 最 好 方法 就 是 分 两 个 阶段 完成 。 首 先 ， 开 发 适合 消息 传递 模式 的 分 解 和 映 
射 策略 ， 并 使 用 这 种 策略 来 开发 节点 间 的 并 行 机 制 。 原 始 和 矩阵 相 乘 问题 分 解 成 的 每 个 任务 本 
身 是 矩阵 相 乘 计算 。 然 后 ， 开 发 适合 共享 存储 模式 的 分 解 和 映射 策略 ， 并 使 用 此 策略 在 单个 
节点 的 多 CPU 上 实现 每 个 任务 。 


3.2 分 解 技术 


如 前 面 所 述 ， 并 行 求解 问题 的 基本 步 又 就 是 将 被 执行 的 计算 划分 成 一 组 按照 任务 依赖 图 
并 行 执行 的 任务 。 本 节 将 讨论 一 些 为 获得 并 发 性 而 经 常 使 用 的 分 解 技术 ， 但 并 不 列举 所 有 可 
能 的 分 解 技 术 。 而 且 ， 对 某 个 给 定 的 问题 ， 某 种 分 解 技术 并 不 总 能 得 到 它 的 最 好 并 行 算 法 。 
虽然 有 这 些 缺 陷 ， 但 本 广 讨 论 的 分 解 技术 通常 是 解决 许多 问题 的 很 好 的 切 人 点 ， 将 这 些 技 术 
加 以 组 合 ， 能 得 到 对 许多 问题 的 有 效 分 解 。 

这 些 技术 可 概括 分 类 为 递归 分 解 (recursive decomposition )、 数 据 分 解 (data decomposition ) 、 
探测 性 分 解 (exploratory decomposition ) 以 及 推测 性 分 解 (speculative decomposition )。 递 归 分 
解 和 数据 分 解 技术 是 比较 通用 的 ， 因 为 它们 能 适用 于 大 量 的 各 种 问题 。 探测 性 和 推油 性 分 解 
技术 是 专用 性 质 的 ， 因 为 它们 只 适用 特定 类 型 的 问题 。 


3.2.1 递归 分 解 


递归 分 解 采用 分 而 治之 的 策略 使 问题 可 并 行 执行 。 这 种 策略 首先 划分 问题 为 一 组 独立 的 
于 问题 ， 子 问题 又 可 以 采用 相似 的 划分 得 到 更 小 的 子 问题 。 分 治 策略 能 得 到 自然 的 并 发 性 ， 
因为 不 同 子 问 题 可 并 发 求解 。 


例 3.4 快速 排序 


通常 使 用 快速 排序 算法 对 包含 a 个 元 素 的 序列 4 进行 排序 。 快 速 排序 使 用 分 治 算法 ， 
指定 其 中 一 个 元 素 x 为 主 元， 然后 划分 序列 4 为 两 个 子 序列 4o 和 4， 使 4o 中 的 元 素 都 小 于 x， 
4! 中 的 元 素 都 大 于 等 于 x。 这 个 划分 步骤 就 是 分 治 算法 中 的 分 开 步 又 。 每 个 子 库 列 4 和 4 机 
递归 调用 快速 排序 ， 每 一 个 递归 调用 再 进行 划分 。 这 个 过 程 在 图 3-8 中 用 12 个 数字 的 一 个 序列 
说 明 。 当 每 一 个 子 序列 中 只 有 一 个 元 素 时 递归 结束 。 | 


在 图 3-8 中 ， 我 们 定义 一 个 任务 为 划分 一 个 给 定 序列 的 操作 。 因 此 图 3-8 也 代表 问题 的 任务 
图 。 起 初 ， 仅 有 一 个 序列 〈 即 树 的 根 )， 因 此 只 能 使 用 一 个 处 理 器 来 划分 它 。 根 任务 产生 成 两 
个 子 序列 (4o 和 4 对 应 于 树 的 第 一 屋 两 个 市 点 )， 每 个 子 序列 可 并 行 划 分 。 类 似 地 ， 沿 着 树 向 
下 移动 ， 并 发 性 不 断 增 加 。 
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图 3-8 对 含有 12 个 数字 的 序列 排序 时 进行 
递归 分 解 的 快速 排序 任务 依赖 图 


有 时 ， 即 使 常用 于 解决 问题 的 算法 没有 采用 分 治 策略 ， 也 可 以 重新 构造 计算 ， 使 之 适用 
于 递归 分 解 。 例 如 ， 在 具有 z 个 数字 的 数组 4 中 查找 最 小 元 素 。 查 找 的 串 行 算法 就 是 遍历 整个 
序列 4， 并 在 每 一 步 中 记 下 找到 的 最 小 元 素 ， 如 算法 3-1 中 的 描述 。 容 易 看 到 此 串 行 算法 设 有 
显示 并 发 性 。 
算法 3-1 ”在 含有 n 个 数字 的 数组 A 中 查找 最 小 数 的 串 行程 序 
procedure SERIAL_MIN (A, n) 


begin 
min = 4[0]; 
fori:=1lton~—1do 

if(A[i] < min) min := A[i]:; 
endfor; 
return min; 
end SERIAL_MIN 


EN MD NE 


算法 3-2 在 含有 n 个 数字 的 数组 A 中 查找 最 小 数 的 递归 程序 
procedure RECURSIVE_MIN (A, n) 


begin 
if (n = 1) then 
min := 4[0]; 
else 
Imin := RECURSIVE_MIN (A, n/2); 
rmin := RECURSIVEMIN (&(A[n/2)]), n — n/2); 
证 (Imin < rmin) then 
min := [min: 
10. else 
Ls min := rmin; 
12. endelse; 
13. endelse; 
1l4. _ return min: 


15. end RECURSIVE_MIN 
2 


:oo 人 
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将 此 计算 重新 构造 为 分 治 算法 ， 就 能 使 用 递归 分 解 而 得 到 并 发 性 。 算 法 3-2 是 在 一 个 数组 
中 查找 最 小 元 素 的 分 治 算法 。 该 算法 首先 划分 数组 4 为 两 个 子 序列 ， 每 个 子 序列 中 的 元 素 个 数 
为 W2， 在 每 一 子 序 列 中 分 别 递 归 调 用 最 小 查找 。 这 样 数组 4 中 的 最 小 元 素 就 是 两 个 子 序 列 中 
最 小 元 素 值 更 小 的 。 当 每 一 个 子 序列 中 只 有 一 个 元 素 时 ， 递 归结 束 。 用 这 种 方式 重 构 串 行 算 
很 容易 构造 问题 的 任务 依赖 图 。 图 3-9 显 示 这 样 的 任务 依赖 图 ， 用 来 查找 8 个 数字 中 的 最 
小 数 ， 其 中 每 一 任务 只 负责 查找 两 个 数 中 较 小 的 一 个 。 








_min(4,1) ) 







图 3-9 在 数组 {4，9，1, 7，8，11，2，12} 中 查找 最 小 
元 素 的 任务 依赖 图 。 树 中 的 每 一 节点 表示 查找 、 
一 对 数字 中 的 较 小 数字 的 任务 





3.2.2 数据 分 解 


对 于 运行 在 大 数据 结构 中 的 算法 ， 要 在 算法 中 得 到 并 发 性 ， 数 据 分 解 是 常用 的 有 效 方法 。 
97] 在 这 种 方法 中 ， 计 算 的 分 解 分 两 步 完成 。 第 一 步 对 计算 中 的 数据 进行 划分 ， 第 二 步 ， 在 数据 
划分 的 基础 上 推导 从 计算 到 任务 的 划分 。 通 常 ， 对 不 同 数据 划分 任务 执行 的 操作 是 相似 的 
(如 例 3.5 中 的 矩阵 相 乘 ) ， 或 者 选 自 一 个 小 的 操作 集 (如 例 3.10 中 的 LU 分 解 )。 
下 面 将 讨论 各 种 可 能 的 不 同 数据 划分 方法 。 一 般 而 言 ， 我 们 要 探究 并 评估 各 种 可 行 的 数 
据 划分 方法 ， 并 从 中 找 出 最 简单 有 效 的 对 计算 的 分 解 。 : 
划分 输出 数据 在 许多 计算 中 ， 每 个 输出 元 素 都 可 作为 输入 元 素 的 函数 独立 计算 得 到 。 在 
这 样 的 计算 中 ,输出 数据 的 一 个 划分 自动 地 将 问题 分 解 为 多 个 任务 ， 每 一 个 任务 负责 计算 一 
部 分 给 出 数据 。 例 3.5 有 关 短 隆 相 科 的 问题 说 明 以 划分 输出 数据 为 基础 的 分 角 ， 


例 3.5 垂 阵 相 乘 


考虑 将 两 个 nx a 息 阵 A 和 8B 相 乘 得 到 箱 阵 C。 图 3-10 表 示 ， 问 题 被 分 解 为 4 个 任务 。 每 一 个 
和 矩阵 被 认为 由 4 个 子 和 矩阵 或 块 组 成 ， 这 些 子 矩 阵 或 块 通过 把 矩阵 的 每 一 维 分 成 两 半 来 定义 。 然 
后 ， (的 4 个 子 算 阵 〈 每 个 大 小 约 为 mW2 x mW2)， 就 由 4 个 任务 独立 地 计算 出 ， 作 为 4 人 和 有 的 子 矩 
阵 的 相应 乘积 的 和 。 加 


大 部 分 矩阵 算法 ， 包 括 矩 阵 - 向 量 相 乘 和 算 阵 -矩阵 相 冬 部 能 表示 为 算 阵 决 的 操作 ， 在 
这 种 表示 方法 中 ， 和 矩阵 被 看 成 由 块 或 子 矩阵 组 成 ， 对 和 扼 阵 元 素 的 标量 算术 运算 由 等 价 的 对 块 
的 矩阵 运算 替换 。 放 两 和 方法 的 运算 结果 相同 《习题 3.10)。 块 形式 的 矩阵 算法 通常 被 用 来 辅 
198] 助 分 解 。 
图 3-10 所 示 的 分 解 以 输出 矩阵 C 划 分 为 4 个 子 和 矩阵 为 基础 ， 而 4 个 任务 中 的 每 一 个 任务 分 别 
计算 这 些 子 和 矩阵 。 读 者 必须 注意 ， 数 据 分 解 明 显 不 同 于 将 计算 分 解 为 任务 。 虽 然 这 两 者 通 党 
是 相关 的 ， 而 且 前 者 常常 用 来 协助 后 者 ， 但 一 个 数据 分 解 并 非 只 有 一 种 任务 分 解 。 例 如 ， 图 
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3-11 有 显示 矩阵 相 乘 的 其 他 两 种 任务 分 解 ， 每 一 种 包含 8 个 任务 ， 对 应 于 图 3-10a 中 的 同一 个 数据 
分 解 。 z 
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Task 1: C11 = Ai1B11 + Ai12B2.I 
Task 2: C1 2 = Ai1B12 + Al2B2 2 
Task 3: C2 1 = 42 1B811 十 42282 1 
Task 4: C2.2 = 42.181.2 十 A2.2B2 2 





b) 
图 3-10 第 阵 相 乘 : a) 划分 输入 和 输出 矩阵 为 2 x 2 的 
子 和 矩阵 ; b) 以 图 a) 中 的 矩阵 划分 为 基础 
将 矩阵 相 乘 分 解 为 4 个 任务 


Task 1: CI = 41.181.1 
Task 2: CI = Cl1 + A1.2B2.1 
Task 3: C12 = 41.1812 


Task 4: C1 2 = Ci.2 + Al.2B> .2 
Task 5: C2 1 = A21B! 1 
Task 6: C2 1 = C2.1 + A22B21 
Task 7: C22 = A>1812 
Task 8: C22 = C22 + A22B2 2 


Task 1: C11 = AL1B1, 

Task 2: C1 1 = C1 + A12B2 1 
Task 3: C12 = 412B2 2 

Task 4: C1 2 = C12 + Al.1B1 2 " 
Task 5: C71 = A22B, 1 

Task 6: C2 1 = C2 1 + A21B11 
Task 7: C2 = 421812 


Task 8: C72 = C72 + A22B2 2 








图 3-11 分 解 矩 阵 相 乘 为 8 个 任务 的 两 个 例子 


下 面 引 入 另外 两 个 例子 说 明 以 数据 划分 为 基础 的 分 解 。 例 3.6 描 述 事务 数据 库 中 ， 计 算 一 
个 项 目 集 出 现 的 频率 ， 这 个 问题 也 能 以 输出 数据 划分 为 基础 进行 分 解 。 


例 3.6 计算 事务 数据 库 中 一 个 项 目 集 出 现 的 频率 


考虑 计算 事务 数据 库 中 一 个 项 目 集 的 出 现 频率 。 在 这 个 问题 中 ， 给 定 一 个 含 n 个 事务 的 集 
合 T 和 含 m 个 项 目 集 的 集合 I。 每 个 事务 和 项 目 集 都 包含 来 自 一 个 可 能 项 自 集 中 的 少量 项 目 。 例 
如 ，T 可 能 是 一 个 食品 店 顾 客 销售 数据 库 ， 每 一 事务 是 一 个 购物 者 的 个 人 商品 列表 ， 每 一 项 目 
集 可 能 是 商店 中 的 一 组 商品 集 。 如 果 商 店 想 知 道 有 多 少 蜂 客 购买 了 指定 商品 集中 的 每 一 种 商 
品 ， 那 么 就 要 计算 /中 的 每 一 项 目 集 在 所 有 事务 中 出 现 的 次 数 之 和 ; 即 每 个 项 目 集 是 事务 的 子 
集 的 事务 数目 。 图 3-12a 显 示 这 种 计算 。 图 3-12 中 的 数据 库 由 10 个 事务 组 成 ， 而 我 们 对 计算 表 
中 第 2 列 8 个 项 目 集 出 现 的 频率 感 兴趣 。 数 据 库 中 这 些 项 目 集 的 实际 频率 ， 即 频率 计算 程序 的 
输出 ， 显 示 在 第 3 列 中 。 例 如 ， 项 目 集 {D，K} 出 现 两 次 ， 一 次 在 第 2 个 事务 中 ， 一 次 在 第 9 个 
事务 中 。 僵 
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图 3-12b 说 明 如 何 通过 把 输出 划分 为 两 部 分 ， 并 让 每 个 任务 计算 频率 的 一 半 ， 将 项 目 集 频 
率 的 计算 分 解 成 两 个 任务 。 在 此 过 程 中 ,注意 项 目 集 输 入 也 被 划分 ， 但 图 3-12b 中 分 解 的 首要 
目的 是 让 每 一 个 任务 独立 计算 指定 给 它 频 率 的 子 集 。 
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任务 1 任务 2 
b) 划分 任务 之 间 的 频率 (和 项 目 集 ) 
图 3-12 计算 事务 数据 库 中 项 目 集 出 现 的 频率 


划分 输入 数据 只 有 当 每 一 个 输出 结果 都 能 作为 输 大 的 函数 自然 地 计算 时 ， 才 能 划分 输出 
数据 。 在 许多 算法 中 ， 不 可 能 或 不 要 求 划分 输出 数据 。 例 如 ;查找 数据 集 的 最 小 值 、 最 大 值 
或 求 和 ， 输 出 仅仅 是 一 个 单独 的 未 知 值 。 在 排序 算法 中 ， 每 一 输出 元 素 不 能 孤立 地 确定 。 在 
这 些 情 况 下 ， 很 可 能 要 划分 输入 数据 ， 然 后 再 用 这 种 划分 导出 并 发 性 。 对 输入 数据 的 每 一 个 
划分 创建 一 个 任务 ， 而 这 个 任务 尽量 利用 本 地 数据 执行 尽 可 能 多 的 计算 。 注 意 ， 由 输入 数据 
划分 导出 的 任务 解决 方案 可 能 并 不 能 直接 解决 原始 问题 。 这 种 情况 下 还 需要 对 结果 进行 归并 
的 计算 。 例 如 ， 用 p 个 进程 计算 NN > p) 个 数 序列 的 和 ， 就 可 以 把 输入 划分 为 p 个 数量 大 致 相等 
的 子 集 。 每 一 任务 计算 一 个 子 集 的 和 。 最 后 ， 这 p 个 部 分 和 相 加 就 得 到 最 终结 果 。 

例 3.6 描 述 的 ， 计 算 事务 数据 库 中 一 个 项 目 集 出 现 的 频率 计算 问题 也 能 通过 输入 数据 的 划 
分 来 分 解 。 图 3-13a 显 示 以 输入 事务 的 划分 为 基础 的 分 解 。 两 个 任务 分 别 计算 所 有 项 目 集 在 其 
事务 子 集 中 出 现 的 频率 。 这 两 个 频率 集 是 两 个 任务 独立 的 中 间 结 果 。 通 过 成 对 相 加 组 合 中 间 
结果 就 得 到 最 终 值 。 | 

划分 输入 和 输出 数据 在 可 能 对 输出 数据 进行 划分 的 情况 下 ， 对 输入 数据 的 划分 可 能 导致 
附加 的 并 发 性 。 例 如 ， 在 图 3-13b 显 示 的 项 目 集 频率 计算 的 4 路 分 解 中 ， 事 务 集 和 频率 集 被 分 
解 为 两 部 分 ，4 种 不 同 组 合 的 每 一 个 被 分 配给 4 个 任务 中 的 一 个 。 然 后 ， 每 个 任务 计算 频率 的 
本 地 集 。 最 后 ， 把 任务 1 和 任务 3 的 输出 加 在 一 起 ， 任 务 2 和 任务 4 的 输出 加 在 一 起 。 
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任务 3 任务 4 
b) 在 任务 之 间 划 分 事务 和 频率 
图 3-13 计算 事务 数据 库 中 项 目 集 频率 的 一 些 分 解 方 法 


划分 中 间 结 果 数据 “有 些 算法 通常 可 以 组 成 多 级 计算 结构 ， 其 中 某 一 级 的 输出 是 下 一 级 答 
人 。 对 这 种 算法 的 分 解 ， 可 以 从 划分 算法 中 间 级 的 输入 或 输出 数据 导出 。 划 分 中 间 数 据 有 时 
比划 分 输入 或 输出 数据 获得 更 高 的 并 发 性 。 通 常 ， 在 求解 问题 的 串 行 算法 中 并 不 显 式 产 生 中 Dol| 
间 数 据 ， 而 某 些 对 原始 算法 的 重 构 可 能 需要 用 中 间 数 据 划分 导出 分 解 。 

我 们 重新 用 矩阵 相 乘 的 例子 说 明 以 划分 中 间 数 据 为 基础 的 分 解 。 如 图 3-10 和 图 3-11 所 不， 
回忆 以 输出 矩阵 C 的 2 x 2 划分 为 基础 的 分 解 的 最 大 并 发 度 为 4。 我 们 可 以 通过 引入 一 个 中 间 过 
程 来 增加 并 发 度 ， 如 图 3-14 所 示 ， 在 中 间 一 级 的 8 个 任务 分 别 计算 乘积 子 矩 阵 ， 并 把 结 采 存 储 
到 一 个 临时 三 维 第 阵 D 中 ， 子 和 矩阵 Di 是 Ais 和 Bi; 的 乘积 。 

对 中 间 算 阵 D 的 划分 导出 8 个 任务 的 分 解 ， 如 图 3-15 所 示 。 乘 法 计算 结束 后 ， 通 过 耗 时 相 
对 较 少 的 人 入 阵 加 法 步 难 计算 结果 矩阵 C。 对 第 2 维和 第 3 维 i 和 和 相同 的 所 有 子 矩 阵 Dij 相 加 得 到 
C,,。 图 3-15 中 任务 1 到 8 的 任务 执行 的 操作 为 O(n3/8)， 每 个 任务 对 矩阵 A 和 B 的 n/2 x n/2 子 矩阵 
作 乘 法 。 然后， 任务 9 到 12 的 任务 每 个 用 时 O(n2/4)， 对 中 间 和 矩阵 D 的 相应 n/2 x n/2 子 矩阵 相 加 
得 到 最 后 的 结果 矩阵 C。 图 3-16 显 示 与 图 3-15 中 的 分 解 对 应 的 任务 依赖 图 。 
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图 3-14 矩阵 4 和 8B 用 三 维 中 间 和 矩阵 D 的 划分 时 的 相 乘 


注意 如 图 3-11 所 示 ，D 的 所 有 元 素 在 原始 分 解 中 都 是 隐 式 计算 的 ， 也 不 用 显 式 存储 。 通 过 
重 构 原 始 算 法 并 显 式 保存 D， 就 可 以 设计 出 具有 更 高 并 发 性 的 分 解 算法 。 但 是 ， 这 个 算法 要 用 
到 额外 的 聚合 内 存 。 
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( Dii!1 D112 )+( D211 D;12 ) ( Gir C12 ) 
Di22 了 Dl22 D222 D2z22 Gotrik22 3 

由 D 的 划分 导出 的 分 解 


TaskO0l: D111 = AlI1BI1 
Task 02: D1,1 =412B2 1 
Task 03:. D112= A11B12 : 
Task 04: DD,12 = Ai2B,, 
Task 05: ”Di21= A21B11 
Task 06: D;21 = A22B2 1 
Task 07: D122 = A2.1B1.2 
Task 08: D;;2 = A;2B2; 
Task 09: C11= Di11+ D2 
Task 10: CI =WD1,12 十 D212 
Task 11: C21= Di21l 十 D27j 
Task 12: “C2 ? = Di,22 + D2.22 






















图 3-15 矩阵 相 乘 基于 划分 中 间 三 维 矩 阵 的 分 解 
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拥有 者 -计算 规则 以 划分 输入 或 输出 数据 为 基础 的 分 解 也 常 称 为 拥有 者 -计算 (owner- 
compute) 规则 。 这 个 规则 的 思想 是 ， 每 一 个 划分 都 执行 涉及 它 拥 有 的 数据 的 所 有 计算 。 根 据 数据 
的 性 质 或 数据 划分 的 类 型 ， 拥 有 者 -计算 规则 可 能 上 共有 不 同 的 含义 。 例 如 ， 当 把 输入 数据 的 划分 
分 配给 任务 上 时， 拥有 者 -~ 计算 规则 意味 着 一 个 任务 要 执行 能 用 这 些 数 据 完成 的 所 有 计算 。 另 一 方 
面 ， 如 果 划 分 输出 数据 ， 那 么 拥有 者 -计算 规则 表明 一 个 任务 要 计算 分 给 它 的 所 有 分 区 中 的 数据 。 


DO OO © 0 © 
(9) G0 


图 3-16 图 3-15 所 示 分 解 的 任务 依赖 图 





3.2.3 探测 性 分 解 


有 些 问 题 的 基本 计算 对 应 于 解 空 间 的 一 次 搜索 ， 探 测 性 分 解 就 用 来 分 解 这 样 的 问题 。 在 
探测 性 分 解 中 ， 划 分 搜索 空间 为 更 小 的 部 分 ， 然 后 并 发 搜索 这 些小 的 部 分 ， 直 至 找 出 希望 的 
解 。 考 察 15 迷 宫 问 题 作 为 探 油性 分 解 的 例子 。 


例 3.7 15 迷宫 问题 


15 迷 宫 问题 由 4 x 4 网 格 组 成 ， 其 中 15 个 格 的 标号 从 1 到 15， 另 一 个 为 空格 。 与 空格 邻接 的 
一 格 可 以 移 进 这 个 空格 ， 而 原来 位 置 成 为 空格 。 根 据 网 格 布局 ， 最 多 有 4 个 可 移动 的 格 : 上 、 
下 、 左 、 右 。 网 格 的 初始 和 最 终 布 局 事先 给 定 。 目 标 是 找到 从 初始 布局 到 最 终 布局 的 任意 移 
动 序列 或 最 短 移 动 序列 。 图 3-17 展 示 一 个 从 初始 布局 到 最 终 布 局 的 序列 移动 过 程 。 | 


遂 常 ， 人 们 用 搜索 树 技术 解决 15 迷 宫 问 题 。 从 初始 布局 开始 ， 产 生 所 有 可 能 的 后 继 布 局 。 
一 种 布局 可 能 有 2、3、4 种 后 继 布局 ， 每 一 种 对 应 于 一 个 相 邻 格 移 进 空格 。 寻 找 一 条 从 初始 布 
局 到 节 终 布局 的 路 径 的 任务 变 成 寻找 一 条 从 这 些 新 产生 的 布局 之 一 到 最 终 布 局 的 路 径 。 由 于 
其 中 一 个 新 产生 的 布局 必定 向 最 终 布局 靠近 了 一 步 (如 果 解 存在 )， 我 们 已 经 向 求解 靠近 了 一 
步 。 由 搜索 树 产生 的 布局 空间 通常 称 为 状态 空间 图 。 图 中 每 个 节点 表示 一 种 布局 ， 图 中 每 条 
边 连接 着 两 个 布局 ， 通 过 移动 一 格 可 以 从 一 个 布局 到 达 另 一 个 。 
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图 3-17 15 迷 宫 问题 实例 ， 显 示 起 始 布局 a) 、 最 终 布局 
d) 以 及 从 起 始 布 局 到 最 终 布局 的 移动 序列 


下 面 讲述 求解 这 个 问题 的 并 行 方法 。 首 先 ， 从 初始 布局 依次 产生 少数 层次 的 布局 ， 直 到 
搜索 树 有 足够 的 叶 节 点 (也 就 是 15 迷 宫 问 题 的 布局 )。 然 后 每 一 节点 分 派 一 个 任务 进行 进一步 
窜 找 ， 直 到 其 中 至 少 一 个 找到 一 个 解 。 只 要 一 个 并 发 任务 找到 一 个 解 ， 就 可 以 通知 其 他 任务 
停止 查找 。 图 3-18 显 示 分 解 为 4 个 任务 时 的 查找 ， 其 中 任务 4 找到 解 。 
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图 3-18 一 个 15 迷 宫 问题 实例 产生 的 状态 
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注意 ， 即 使 探测 性 分 解 表面 上 与 数据 分 解 相 似 (搜索 空间 可 认为 是 被 划分 的 数据 )， 但 它 
们 有 下 述 本 质 上 的 不 同 。 数据 分 解 导出 的 任务 都 完全 地 执行 ， 每 一 任务 执行 的 计算 都 是 最 终 
解 的 一 部 分 。 在 男 一 方面 ， 探测 性 分 解 中 只 要 一 个 任务 找到 答案 ， 其 他 未 完成 任务 就 可 以 终 
止 。 因 此 ， 并 行 形式 执行 的 一 部 分 搜索 (以 及 执行 的 累计 操作 量 ) 与 串 行 算法 的 搜索 是 完全 
不 同 的 。 并 行 形式 执行 的 操作 既 可 以 少 于 也 可 以 多 于 串 行 算法 执行 的 操作 。 例如 ， 图 3-19 中 
所 示 的 搜索 空间 被 划分 为 4 个 并 发 任务 。 假如 解 位 于 与 任务 3 对 应 的 搜索 空间 的 开始 处 《图 
3-19a) ， 那 么 并 行 形式 几乎 立刻 就 找到 答案 。 串 行 算 法 要 在 执行 完 对 应 于 任务 1 和 2 搜索 整个 
空间 后 才能 找到 解 。 另 一 方面 ， 假如 解 位 于 与 任务 1 对 应 的 搜索 空间 的 末端 (图 3-19b)， 那 么 
并 行 形式 就 要 执行 几乎 4 倍 于 串 行 算法 的 操作 ， 也 就 不 会 产生 加 速 比 。 





总 的 串 行 操 作 : 2m+1 总 的 串 行 操作 : m 
总 的 并 行 操作 : 1 总 的 并 行 操 作 : 4m 


a) b) 
图 3-19 由 探测 性 分 解 得 到 的 异常 加 速 比 的 实例 


3.2.4 推测 性 分 解 


有 了 时 程序 会 遇 到 多 个 可 能 的 对 计算 很 重要 的 分 支 ， 选 择 某 个 分 支 又 取决 于 之 前 的 其 他 计 
算 的 结果 ， 此 时 就 要 用 到 推测 性 分 解 。 这 种 情况 下 ， 当 一 个 任务 正在 执行 计算 ， 而 这 个 计算 
结果 将 决定 下 一 步 计算 ， 其 他 任务 就 可 以 并 发 地 执行 下 一 步 计算 。 这 种 情况 类 似 于 C 语 言 中 在 
得 到 switch 语 句 的 输入 前 ， 并 行 计算 switch 语 句 的 一 个 或 多 个 分 支 。 当 一 个 任务 进行 最 终 决定 
转向 分 支 的 计算 时 ， 其 他 任务 可 以 并 行 地 选取 switch 的 多 个 分 支 。 当 完成 对 switch 输 入 的 计算 
时 ， 与 正确 分 支 对 应 的 计算 将 被 利用 ， 而 对 应 的 其 他 分 支 则 被 丢弃 。 通 过 考虑 估计 下 一 个 任 
务 依赖 的 条 件 所 需 的 时 间 ， 由 于 利用 了 决定 转向 分 支 的 计算 时 间 去 进行 下 一 步 的 并 行 计算 ， 
并 行 计算 时 间 要 少 于 串 行 计 算 时 间 。 然 而 ， switch 的 这 种 并 行 形式 肯定 有 一 些 计 算 浪 费 。 为 减 
少 这 种 浪费 ， 可 使 用 一 种 稍微 不 同 的 推测 性 分 解 ， 在 switch 的 一 种 结果 更 可 能 出 现 的 情况 下 ， 
这 种 方法 最 适合 。 在 这 种 情况 下 ， 只 有 最 可 能 发 生 的 分 支 占 用 一 个 任务 与 前 面 的 计算 并 行 执 
行 。 如 果 switch 的 结果 与 推测 的 不 同 ， 那么 就 回 滚 并 采用 switcjp 的 正确 分 支 。 

如 果 有 多 个 推测 性 阶段 .， 那么 由 推测 性 分 解 带 来 的 加 速 比 就 可 以 累加 起 来 。 离 散 事 件 模 
拟 (discrete event simulation) 就 使 用 推测 性 分 解 。 对 离散 事件 模拟 的 详细 描述 超出 本 章 的 苑 
围 ; 但 是 ， 我 们 在 下 面 给 出 问题 的 一 个 简化 描述 。 


例 3.8 并 行 离散 事件 模拟 


萎 虑 对 表示 成 网 络 或 有 向 图 系统 的 模拟 。 网 络 的 节点 代表 组 件 。 每 一 个 组 件 有 作业 的 一 
个 输入 缓冲 区 。 每 一 组 件 或 节点 的 起 始 状态 是 空闲 的 。 如 果 队 列 中 有 作业 ， 空闲 组 件 从 输入 
队列 中 选择 一 个 作业 ， 在 有 限 的 时 间 中 处 理 该 作业 ， 并 把 它 放 到 由 输出 边 与 其 相连 的 组 件 输 
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入 缓冲 区 中 。 如 果 输 出 的 相 邻 组 件 之 一 的 输入 缓冲 区 已 满 ， 则 组 件 就 必须 等 待 ， 直 到 相 邻 组 
件 选 取 一 个 作业 执行 ， 从 而 在 缓冲 区 中 创建 空间 。 输 入 作业 的 类 型 是 有 限 的 。 一 个 组 件 的 输 
出 《以 及 与 之 相连 组 件 的 输入 ) 和 处 理 作业 的 时 间 是 输入 作业 的 函数 。 现 在 的 问题 是 要 对 一 
个 或 一 组 输入 作业 队列 模拟 网 络 的 功能 ， 并 计算 总 的 完成 时 间 和 其 他 可 能 的 系统 行为 。 图 
3-20 显 示 一 个 解决 离散 事件 问题 的 简单 网 络 。 出 


系统 输入 
系统 输出 





系统 组 件 
图 3-20 用 于 离散 事件 模拟 的 一 个 简单 网 络 


在 例 3.8 中 ， 网 络 上 输入 作业 队列 的 模拟 问题 有 着 固有 的 顺序 ， 因 为 一 个 典型 组 件 的 输入 
是 另外 一 个 组 件 的 输出 。 然 而 ， 我 们 可 以 定义 一 些 推 独 性 任务 来 模拟 网 络 的 一 部 分 ， 其 中 每 
一 部 分 都 假设 有 那个 阶段 的 几 种 可 能 输入 之 一 。 当 某 一 阶段 的 实际 输入 得 到 后 (作为 前 一 阶 
段 另 一 选择 器 任务 组 件 的 结果 )， 如 果 推测 是 正确 的 ， 那 么 模拟 这 个 输入 需要 的 全 部 或 部 分 工 
作 已 经 完成 ; 否则 如 果 推 测 是 错误 的 ， 那 么 就 要 用 最 近 的 正确 输入 重新 对 这 个 阶段 进行 模拟 。 

推测 性 分 解 与 探测 性 分 解 有 如 下 不 同 。 推 测 性 分 解 中 导向 各 并 行 任务 的 一 个 分 支 输 入 是 
未 知 的 ， 而 在 探测 性 分 解 中 ， 源 于 一 个 分 支 的 多 任务 输出 是 未 知 的 。 在 推测 性 分 解 情况 下 ， 
串 行 算法 严格 地 执行 一 个 推测 阶段 的 单个 任务 ， 因 为 当 到 达 此 阶段 的 开始 处 时 ， 已 经 确切 知 
道 应 该 执行 哪 一 个 分 支 。 因 此 ， 通 过 预先 计算 只 有 一 个 实际 被 执行 的 多 个 可 能 的 任务 ， 采 用 
推测 性 分 解 的 并 行程 序 要 比 相应 的 串 行程 序 完 成 更 多 的 累积 工作 。 即 使 只 是 推测 性 地 探测 多 
个 可 能 性 中 的 一 个 ， 与 串 行 算法 相 比 ， 并 行 算法 也 要 完成 更 多 或 一 样 多 的 工作 量 。 另 一 方面 ， 
在 探测 性 分 解 情况 下 ， 串 行 算法 也 可 能 探索 不 同 的 选择 ， 因 为 在 开始 时 可 能 通 向 结果 的 分 支 
是 未 知 的 。 所 以 ， 根 据 结果 在 搜索 空间 中 的 位 置 ， 与 串 行 算法 相 比 ， 并 行 算法 可 能 执行 更 多 、 
更 少 或 同样 的 总 工作 量 ， 


3.2.5 混合 分 解 


前 面 已 经 过 论 了 许多 分 解 方法 ， 它们 能 用 于 导出 许多 算法 的 并 发 形式 。 这 些 分 解 方法 并 
不 十 相互 排斥 的 ， 往 往 可 以 组 合 应 用 。 通 常 ， 计 算 由 多 个 阶段 构成 ， 有 了 时 在 不 同 阶段 要 使 用 
不 同 的 分 解 方法 。 例 如 ， 查 询 具 有 "个 元 素 的 大 集合 中 的 最 小 元 素 时 ， 采 用 纯 递 归 分 解 可 能 得 
到 的 任务 数 要 远 远 多 于 可 用 的 进程 数 P。 有 效 的 分 解 方法 是 把 输入 数据 划分 为 P 个 大 致 相等 的 
邬 分 ， 再 让 每 一 任务 计算 分 配给 它 的 序列 的 最 小 值 ， 最 后 可 使 用 图 3- 21 所 示 的 递归 分 解 找到 P 
个 中 间 结 果 的 最 小 值 。 

作为 混合 分 解 的 另外 一 个 应 用 的 例子 ， 考 虑 并 行 快速 排序 。 例 3.4 中 使 用 递归 分 解 得 到 了 
快速 排序 的 并 发 形式 。 对 n 元 素 的 序列 进行 排序 时 ， 使 用 这 种 形式 将 导致 O(n) 个 任务 。 但 由 于 


开行 工法 健 什 原则 8] 
这 些 任务 间 相互 依赖 性 以 及 任务 大 小 不 一 ， 有 效 的 并 发 性 相当 有 限 。 例 如 ， 第 一 个 任务 将 答 
入 划分 为 两 个 部 分 花费 O(m) 时 间 ， 这 是 使 用 并 行 性 可 获得 性 能 的 上 界 。 但 在 并 行 快速 排序 中 ， 
任务 执行 的 划分 列表 的 步骤 也 可 采用 9.4.1 节 讨论 的 输入 分 解 技术 。 递 归 分 解 与 输入 数据 分 解 
- 相 组 合 能 产生 快速 排序 的 高 并 发 形式 。 






递归 分 解 


图 3-21 使 用 4 个 任务 查找 含有 16 个 元 素数 组 的 最 小 数 的 混合 分 解 


3.3 任务 和 交互 的 特点 


前 一 节 讲 述 的 各 种 分 解 技 术 ， 使 我 们 能 确定 某 个 问题 可 获得 的 并 发 性 ， 并 把 问题 分 解 为 
可 并 行 执行 的 多 个 任务 。 设 计 并 行 算法 过 程 中 的 下 一 步 就 是 取出 这 些 任务 ， 并 把 它们 分 配 
( 即 映 射 ) 给 可 用 的 处 理 器 。 当 设计 映射 方案 来 构造 好 的 并 行 算法 时 ， 常 常 能 从 分 解 中 得 到 提 
示 。 任 务 的 性 质 和 任务 之 间 的 交互 对 映射 有 影响 。 本 节 将 讨论 对 选择 好 的 映射 方案 有 影响 的 
各 种 任务 特性 及 任务 间 的 交互 特性 。 


3.3.1 任务 特性 


下 面 4 个 任务 特性 对 映射 方案 的 适用 性 有 着 重要 影响 。 

任务 产生 组 成 并 行 算 法 的 任务 既 可 以 静态 产生 ， 也 可 动态 产生 。 如 果 所 有 任务 在 算法 开 
始 执行 前 是 已 知 的 ， 这 种 情况 就 属于 静态 任务 产生 (static task generation)。 数 据 分 解 通常 导 [110| 
致 静态 任务 产生 。 和 矩阵 相 乘 和 LU 因子 分 解 (习题 3.5) 就 是 数据 分 解 导致 静态 任务 产生 的 例子 。 
递归 分 解 也 能 得 到 静态 任务 依赖 图 。 查 找 列表 的 最 小 元 素 (图 3-9) 是 静态 递归 任务 依赖 图 的 
例子 。 

执行 算法 时 ， 某 些 分 解 导 致 动态 任务 产生 (dynamic task generation )。 在 这 样 的 分 解 中 ， 
实际 任务 和 任务 依赖 图 不 能 预先 获得 ， 虽 然 作 为 算法 的 一 部 分 支配 任务 产生 的 高 层 规则 或 准 
则 已 知 。 递 归 分 解 也 能 导致 动态 任务 产生 。 例 如 ， 考 虑 快速 排序 的 递归 分 解 (图 3-8)。 任 务 
是 动态 产生 的 ， 任 务 树 的 大 小 和 形状 由 待 排序 的 输入 数组 中 的 值 决 定 。 同 样 大 小 的 数组 可 能 
导致 不 同形 状 的 任务 依赖 图 及 不 等 的 任务 数量 。 

探测 性 分 解 既 能 静态 地 产生 任务 ， 也 能 动态 地 产生 任务 例如， 考虑 3.2.3 节 讨论 的 15 迷 
宫 问题 中 。 使 用 探测 性 分 解 产 生 静 态 任务 依赖 图 的 方法 如 下 : 首先 ， 一 个 预 处 理 任务 从 最 初 
的 布局 开始 ， 并 按 宽 度 优先 方式 扩展 搜索 树 ， 直 到 预定 数目 的 布局 产生 为 止 。 此 时 ， 这 些 布 
局 代表 独立 的 任务 ， 它 们 能 映射 到 不 同 进程 并 独立 地 运行 。 在 另 一 种 动态 产生 任务 的 分 解 中 ， 
任务 以 一 种 状态 作为 输入 ， 并 以 宽度 优先 方式 扩展 预定 的 步 数 ， 然 后 产生 新 的 任务 ， 对 每 个 
出 现 的 状态 进行 同样 的 计算 (直到 找到 解 后 算法 终止 )。 

任务 大 小 ”任务 大 小 指 用 来 完成 任务 所 需 的 相对 时 间 。 上 映射 方案 的 复杂 性 常常 取 决 于 各 个 
任务 是 否 均匀 ， 也 就 是 说 ， 是 否 需要 大 臻 相同 的 时 间 来 执行 这 些 任 务 。 如 果 各 个 任务 的 执行 
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时 间 相 差 很 大 ， 就 说 它们 是 非 均 匀 的 。 例 如 ， 图 3-10 和 3-11 中 所 示 的 矩阵 相 乘 分 解 的 任务 就 是 
均匀 的 。 相 反 ， 图 3-8 中 快速 排序 的 任务 则 是 非 均 匀 的 。 

任务 大 小 的 知识 ”影响 映射 方案 选择 的 第 三 个 特点 是 任务 大 小 是 否 为 已 知 。 假 如 所 有 任务 
大 小 是 已 知 的 ， 那 么 将 任务 映射 到 进程 时 就 可 用 到 这 个 信息 。 例 如 ， 到 目前 为 止 讨论 的 各 种 
矩阵 相 乘 的 分 解 中 ， 每 一 个 任务 的 计算 时 间 在 并 行程 序 开始 运行 前 是 已 知 的 。 相 反 ， 在 15 迷 
富 问题 中 ， 一 个 典型 任务 的 大 小 是 未 知 的 。 我 们 事先 不 知道 从 某 一 给 定 布局 到 求 出 解 要 移动 
多 少 步 。 

与 任务 相关 的 数据 大 小 ”任务 的 另 一 个 重要 特点 是 与 它 相关 的 数据 大 小 。 它 是 映射 时 要 考 
虑 的 一 个 重要 因素 ， 因 为 进程 执行 这 个 任务 时 必须 获得 与 此 任务 相关 的 数据 ， 这 些 数 据 的 大 
小 和 位 置 可 以 决定 能 够 执行 任务 的 进程 是 否 会 导致 过 多 的 数据 移动 开销 。 

与 任务 相关 的 不 同 数据 类 型 ， 其 大 小 也 可 能 不 同 。 例 如 ， 输 入 数据 可 能 很 小 ， 而 输出 数 
据 却 很 大 ， 或 者 反 过 来 。 例 如 15 迷 宫 问题 中 任务 的 输入 只 是 问题 的 一 个 状态 ， 相 对 于 从 初始 
状态 到 最 终 状 态 找 出 移动 序列 的 总 计算 量 而 言 ， 这 仅仅 是 一 个 很 小 的 输入 。 在 计算 序列 最 小 
元 素 的 问题 中 ， 输 入 的 大 小 与 计算 的 大 小 成 比例 ， 而 输出 仅仅 是 一 个 数 。 在 快速 排序 的 并 行 
计算 中 ， 输 入 和 输出 数据 的 大 小 与 求解 任务 所 需 的 串 行 运行 时 间 是 同 阶 的 。 


3.3.2 任务 间 交 互 的 特征 加 


在 任何 非 平 凡 并 行 算法 中 ， 各 个 任务 需要 相互 交互 ， 以 便 共 享 数据 、 中 间 值 或 同步 信息 。 
不 同 的 并 行 算法 需要 并 发 任务 间 的 不 同类 型 交互 。 这 些 交互 的 性 质 使 得 这 些 任务 更 适合 某 种 
特定 的 编程 模式 和 映射 方案 ， 而 对 于 其 他 一 些 编程 模式 和 映射 方案 却 不 那么 适合 。 任 务 之 间 
交互 的 类 型 可 以 从 不 同方 面 进行 描述 ， 每 一 种 对 应 于 所 采用 计算 的 一 个 独特 特征 。 

静态 与 动态 考虑 交互 是 否 具 有 和 静态 或 动态 模式 是 一 种 对 并 发 任务 闻 发 生 的 交互 进行 分 类 
的 方法 。 静 态 交 互 模式 是 : 对 于 每 一 个 任务 ， 它 们 之 间 的 交互 在 预定 的 时 间 发 生 ， 并 且 在 这 
毕 时 间 交 互 的 任务 集 在 算法 执行 之 前 是 已 知 的 。 换 句 话说 ， 静态 交互 模式 中 ， 不 仅 任 务 -交互 
图 是 预先 知道 的 ， 而 且 交 互 发 生 的 计算 阶段 也 是 预先 知道 的 。 动 态 交 互 模式 则 是 指 在 算法 执 
行 前 ， 交 互 的 时 间或 交互 的 任务 集 不 预先 确定 。 

在 消息 传递 模式 中 容易 编写 静态 交互 程序 ， 而 编写 动态 交互 程序 则 很 难 。 这 是 因为 ， 消 
最 传递 交互 需要 用 到 交互 的 任务 信息 一 一 发 送 者 和 接收 者 的 信息 。 动 态 交 互 的 不 可 预测 性 质 
使 得 发 送 者 和 接收 者 都 很 难 同时 参与 交互 。 因 此 ， 在 消息 传递 模式 中 用 动态 交互 实现 并 行 算 
法 时 ， 必 需 分 派 额外 的 同步 或 轮 询 职责 给 任务 。 使 用 共享 地 址 空间 编程 可 以 方便 地 编写 静态 
交互 和 动态 交互 程序 。 | 

本 章 前 面 提 到 的 对 并 行 矩阵 相 乘 的 分 解体 现 了 静态 任务 交互 。15 迷 宫 问 题 属于 动态 任务 
交互 ， 求 解 的 第 一 步 对 初始 状态 使 用 宽度 优先 搜索 产生 要 求 的 状态 数目 ,其 后 对 各 个 任务 被 
分 配 不 同 的 探测 状态 。 很 可 能 某 一 个 状态 会 导致 死胡同 ， 而 一 个 任务 穷尽 其 搜索 空间 但 没有 
达到 目标 状态 ， 同 时 其 他 任务 还 在 忙于 搜寻 解 。 搜 索 完 路 径 的 任务 可 以 从 另外 的 繁忙 任务 队 
多 中 选取 一 个 未 探索 的 状态 进行 探测 。 从 一 个 任务 到 另 一 任务 的 工作 转换 中 包括 的 交互 是 动 
态 的 。 

有 规则 与 无 规则 另 一 个 对 交互 进行 分 类 的 方法 基于 空间 结构 。 如 果 一 个 交互 模式 有 -此 
等 构 有 利于 有 效 实现 ， 那 么 这 个 模式 被 认为 是 有 规则 的 (regular)。 另 一 方面 ， 如 果 交 互 模式 








中 不 包含 规则 模式 ， 则 被 称 为 无 规则 的 〈irregular)。 无 规则 和 动态 通信 和 是 很 难处 理 的 ， 尤 其 
在 谢 上 县 传递 编程 模式 中 。 图 像 涂 淡 处 理 问 题 属 于 有 规则 交互 模式 的 分 解 。 


例 3.9 图 像 浓淡 处 理 


企图 像 浓 淡 处 理 中 ， 图 像 中 每 一 像素 的 颜色 由 扬 的 初始 值 和 相 邻 像素 颜色 值 的 加 权 平 均 
值 决定 。 对 这 个 计算 进行 分 解 非常 简单 ， 把 图 像 划 分 成 多 个 方形 区 域 ， 用 不 同 任务 对 这 些 区 
域 进行 浓 痰 处 理 。 注 意 ， 每 个 任务 都 需要 访问 分 配给 它 的 区 域 的 像素 值 和 围绕 此 区 域 的 像素 
值 。 这 样 ， 如 果 把 任务 作为 图 的 和 点 ， 用 一 条 边 连 接 一 对 交互 的 任务 ， 那 么 这 种 模式 就 是 一 
个 一 维 格 网 ， 如 图 3-22 所 示 。 m 





图 3-22 图 像 浓淡 处 理 的 规则 二 维 任务 交互 图 。 用 虚线 的 
像素 需要 相 邻 任务 的 边界 像素 颜色 值 


3.1.2 节 讨论 的 稀 玻 矩阵 -向 星相 乘 是 很 好 的 无 规则 交互 的 例子 ， 如 图 3-6 所 示 。 在 此 分 解 
中 ， 即 使 每 一 任务 通过 分 解 不 扫描 分 配给 它 的 矩阵 4 的 行 ， 也 预先 知道 需要 访问 和 阵 4 的 哪些 
行 ， 但 任务 并 不 知道 它 需 要 向 量 p 的 哪 一 项 。 原 因 是 ， 向 量 ” 的 访问 模式 取决 于 稀疏 矩阵 4 的 结 


只 读 与 读 写 ”我 们 已 经 知道 ， 任 务 间 的 数据 共享 会 引起 任务 间 的 交互 。 然 而 ， 共 享 的 类 型 
可 能 会 影响 映射 的 选择 。 数 据 共享 交互 可 分 类 为 只 读 (read-only ) 或 读 写 (read-write) 交互 。 
正如 其 名 ， 在 只 读 交 互 中 ， 任 务 只 需 对 许多 并 发 任务 之 间 共 享 的 数据 进行 读 访 问 。 例 如 ， 在 
图 3-10 显 示 的 对 并 行 矩 阵 相 乘 的 分 解 中 ， 任 务 只 需 读 共享 的 输入 矩阵 4 和 B。 在 读 写 交 互 中 ， 
多 个 任务 项 要 对 共享 数据 进行 读 写 。 例 如 ， 对 于 15 迷 宫 问题 ，3.2.3 节 讨论 的 并 行 形式 采用 穷 
举 搜索 法 来 录 找 解 。 在 这 个 形式 中 ， 每 个 状态 都 被 认为 是 同样 适合 用 于 进一步 展开 的 候选 者 。 
如 果 看 上 去 更 接近 解 的 状态 被 给 予 优 先 探测 权 ， 则 这 种 搜寻 将 更 有 效 。 另 一 种 被 称 为 局 发 式 
搜索 的 技术 就 采用 这 个 策略 。 在 启发 式 搜 索 中 ， 采 用 启发 式 方法 提供 从 每 一 状态 到 最 终 状 态 
的 大 致 距离 ( 即 到 达 最 终 状 态 需 要 移动 的 步骤 )。 在 15 迷 宫 问题 中 ， 某 一 给 定 状 态 下 ， 离 开 原 
来 位 置 的 格 数 可 作为 这 种 启发 。 根 据 启发 式 的 值 ， 需 要 进一步 扩充 的 状态 存储 在 优先 队列 中 。 
选择 状态 进行 扩充 时 ， 先 选择 更 有 希望 的 状态 ， 即 离开 原来 位 置 的 格 数 更 少 的 状态 ， 从 这 种 
状态 很 可 能 更 快 地 得 到 解 。 这 种 情况 下 ， 优 先 队 列 组 成 共享 数据 ， 任 务 既 要 对 此 数据 进行 读 
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访问 ， 也 要 对 此 数据 进行 写 访问 ; 任务 需要 在 此 优先 队列 中 存放 扩充 后 的 状态 ， 并 选取 下 一 
个 更 有 希望 的 状态 进行 下 一 步 扩充 。 

单 向 与 双向 ”在 一 些 交互 中 ， 某 一 任务 或 任务 子 集 所 需要 的 数据 或 工作 明显 由 另 一 任务 或 
任务 子 集 提供 。 这 样 的 交互 称 为 双向 (two-way) 交互 , 通常 包括 预定 的 生产 者 和 消费 者 任务 。 
在 其 他 交互 中 ， 仅 有 一 对 通信 的 任务 发 起 交互 ， 完 成 此 交互 并 不 会 妨碍 其 他 交互 。 这 样 的 交 
互 模式 称 为 单 向 (one-way) 交互 。 所 有 的 只 读 交 互 都 可 以 被 表述 为 单 向 交互 。 读 写 交 互 既 可 
是 单 向 的 又 可 以 是 双向 的 。 

在 共享 地 址 空间 编程 模式 中 ， 处 理 单 向 或 双向 交互 同样 容易 。 然 而 ， 单 向 交互 不 能 直接 
在 消息 传递 模式 中 编程 ， 因 为 传送 的 数据 源 必 须 显 式 送 数 据 到 接收 者 。 在 消息 传递 模式 中 ， 
所 有 单 向 交互 必须 通过 程序 重 构 转 化 为 双向 交互 。 静 态 单 向 交互 可 以 很 容易 地 转化 为 双向 通 
信 。 由 于 在 静态 单 向 交互 编程 中 ， 交 互 的 时 间 和 位 置 预先 知道 ， 对 于 转化 单 向 静态 交互 为 双 
向 静态 交互 ， 在 合作 任务 中 引入 一 个 匹配 交互 操作 就 足够 了 。 相 反 ， 动 态 单 向 交互 转化 为 双 
向 交互 时 必须 经 过 一 些 非 平凡 的 程序 重 构 。 这 种 重 构 通常 包括 轮 询 。 每 一 任务 都 周期 性 地 检 
测 从 其 他 任务 发 送 来 的 未 处 理 请 求 ， 如 果 有 这 样 的 请 求 ， 就 为 它 提供 服务 。 


3.4 负载 平衡 的 映射 技术 


当 一 个 计算 被 分 解 为 多 个 任务 ， 这 些 任务 就 被 映射 到 不 同 进程 ， 以 便 在 最 短 运行 时 间 内 
完成 所 有 任务 。 为 了 减少 运行 时 间 ， 必 需 最 小 化 并 行 任务 的 运行 开销 。 对 于 一 个 给 定 的 分 解 ， 
有 两 个 关键 开销 源 ， 一 是 进程 间 交互 花费 的 时 间 ， 另 一 个 重要 的 开销 源 是 某 些 进程 的 空 闪 时 
间 。 在 总 的 计算 完成 前 ， 由 于 多 种 原因 ， 一 些 进程 也 会 空间 。 不 均衡 的 负载 分 布 会 使 一 些 进 
程 比 另外 的 进程 更 早 结束 。 有 时 ， 由 于 任务 依赖 图 的 限制 ， 上 映射 到 一 个 进程 上 的 所 有 未 完成 
任务 可 能 要 等 到 映射 到 另外 进程 上 的 任务 先 完成 。 交 互 与 空闲 通常 都 是 映射 的 函数 。 因 此 ， 
任务 到 进程 的 有 效 映射 必须 达到 下 面 两 个 目标 : 1) 减少 进程 间 彼 此 交互 的 总 时 间 ，2) 减少 
一 些 进程 繁 佬 而 其 他 进程 空闲 的 总 时 间 。 | 

通常 ， 这 两 个 目标 会 相互 冲突 。 例 如 ， 最 小 化 交互 的 目标 可 以 很 容易 地 通过 分 配 需要 相 
互 交 互 的 任务 到 同一 个 进程 得 到 。 在 大 多 数 情况 下 ， 这 种 映射 很 容易 造成 进程 间 的 负载 不 平 
衡 。 实 际 上 ， 执 行 这 种 策略 常常 会 映射 所 有 任务 到 一 个 进程 上 。 结 果 ， 在 重负 荷 的 进程 还 在 
执行 任务 时 ， 轻 负荷 的 进程 经 常会 空 阅 。 同 样 ， 要 平衡 各 个 进程 的 负载 ， 就 必须 把 交互 频繁 
的 任务 分 配 到 不 同 的 进程 中 。 由 于 这 两 个 目标 之 间 的 矛盾 ， 寻 找 好 的 映射 方法 是 一 个 重要 问 
题 。 

本 蔬 将 讨论 各 种 将 任务 映射 到 进程 的 方法 ， 首 要 考虑 的 问题 是 让 各 个 进程 负载 平衡 ， 并 
使 进程 的 空闲 时 间 最 小 。 减 少 进程 间 的 交互 是 3.5 节 的 主要 内 容 。 读 者 应 该 知道 ， 分 配 均衡 的 
凤 合 负载 到 每 一 进程 是 减少 进程 空闲 的 必要 条 件 ， 但 不 是 充分 条 件 。 回 忆 由 分 解 得 到 的 任务 
并 非 总 能 同时 执行 。 在 并 行 算法 的 执行 中 ， 任 务 依赖 图 决定 了 哪些 任务 能 并 行 执行 ， 而 哪些 
任务 必须 等 到 并 行 算法 执行 中 某 一 阶段 的 其 他 任务 先 完成 。 因 此 ， 在 某 些 并 行 算法 中 ， 虽 然 
所 有 进程 在 不 同时 间 执行 同样 数量 的 聚合 任务 ， 但 只 有 一 部 分 进程 在 运行 ， 而 剩 下 所 包含 任 
务 的 进程 必须 等 待 其 他 任务 先 执行 。 同 样 ， 假 如 其 中 一 个 任务 必须 等 待 其 他 任务 接收 或 发 送 
数据 ， 则 交互 任务 间 较 差 的 同步 也 会 造成 进程 空 亲 。 好 的 映射 方法 必须 确保 在 并 行 算法 的 各 
个 执行 阶段 ， 都 能 在 进程 间 保 持 很 好 的 计算 和 交互 平衡 。 图 3-23 显 示 12 任 务 分 解 的 两 种 映射 
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方法 ， 由 于 任务 的 依赖 性 ， 后 面 4 个 任务 必需 等 到 前 面 8 个 任务 执行 完 才 能 开始 。 如 图 所 示 ， 
工作 负载 平衡 的 两 种 映射 具有 不 同 的 完成 时 间 。 

并 行 算法 中 用 到 的 映射 技术 可 大 致 分 为 两 类 : 静态 和 动态 。 并 行 编程 模式 和 任务 的 特性 
以 及 它们 之 间 的 交互 决定 更 适合 使 用 静态 还 是 动态 映射 。 

。 静 态 映 射 : 静态 映射 技术 在 算法 执行 前 将 任务 分 配给 进程 。 对 于 静态 产生 的 任务 ， 既 可 

使 用 静态 映射 ， 又 可 使 用 动态 映射 。 这 种 情况 下 ， 选 择 好 的 映射 方法 取决 于 几 个 因素 ， 

包括 任务 大 小 是 否 已 知 ， 与 任务 相关 的 数据 大 小 ， 任 务 间 交 互 的 特点 ， 甚 至 还 包括 并 行 

编程 模式 。 即 使 任务 大 小 已 知 ， 对 于 非 均匀 的 任务 ， 获 得 最 佳 映 射 方法 通常 也 是 NP 难 

题 。 然 而 ， 在 许多 实际 情况 下 ， 相 对 简单 的 启发 式 方法 为 最 优 静 态 映射 问题 提供 了 可 接 





受 的 近似 解 。 
使 用 静态 映射 的 算法 一 般 更 容易 设计 和 编程 。 
开始 同步 结束 开始 同步 结束 
:| 国 国 ; 国 国 
m | 图 图 :| 国 mn | 国 国 国 : 
: 国 圆 加 
t=0 t=3 | t=0 . t=6 
a) b) 


图 3-23 带 同步 的 假想 分 解 中 的 两 个 映射 


。 动态 映射 : 动态 映射 技术 在 算法 执行 期 间 在 进程 间 分 配 任 务 。 假 如 任务 是 动态 产生 的 ， 
那么 任务 也 必须 动态 地 映射 。 如 果 任 务 大 小 未 知 ， 那 么 静态 映射 会 引起 严重 的 负载 不 平 
衡 ， 而 动态 映射 往往 会 更 有 效 。 假 如 与 任务 相关 的 数据 相对 于 计算 很 大 ， 则 动态 映射 也 
要 负责 在 进程 间 移 动 这 种 数据 。 数 据 移动 的 开销 可 能 会 抵消 动态 映射 的 优势 ， 反 而 使 得 
静态 映射 更 适合 。 然 而 在 地 址 共享 空间 模式 中 ， 只 要 任务 交互 是 只 读 的 ， 那 么 ， 即 使 与 
任务 相关 的 数据 很 大 ， 动 态 映射 也 会 工作 得 很 好 。 读 者 应 该 知道 ， 共 享 地 址 空间 编程 模 
式 并 不 会 自动 免除 数据 移动 的 成 本 。 假 如 使 用 的 硬件 是 NUMA (2.3.2 节 ) 那么 数据 事 
实 上 ， 可 能 从 远程 存储 器 中 移出 。 即 使 在 cc-UMA 体 系 结构 中 ， 数 据 也 必须 从 一 个 高 速 
缓存 移 到 另 一 个 高 速 缓存 。 

需要 使 用 动态 映射 的 算法 通常 更 复杂 ， 尤 其 在 消息 传递 编程 模式 中 。 

讨论 了 静态 与 动态 映射 方法 的 选择 准则 后 ， 下 面 再 从 细节 上 描述 这 两 种 映射 方法 的 各 种 

设计 方案 。 


3.4.1 静态 映射 方案 


静态 映射 通常 (虽然 不 是 唯一 的 ) 与 以 数据 划分 为 基础 的 分 解 联合 使 用 。 静 态 映 射 也 党 
常用 来 映射 能 用 静态 任务 依赖 图 自然 表示 的 问题 。 下 面 将 讨论 以 数据 划分 和 任务 划分 为 基础 
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的 映射 方案 。 


1. 以 数据 划分 为 基础 的 映射 

本 市 将 讨论 基于 划分 的 映射 ， 划 分 涉及 算法 中 最 常用 的 表示 数据 的 两 种 形式 一 一 数组 和 
图 。 数 据 划 分 实际 上 会 产生 一 个 分 解 ， 但 这 种 划分 或 分 解 的 选择 要 考虑 到 最 终 的 映射 。 

数组 分 配方 案 ”以 数据 划分 为 基础 的 分 解 中 ， 任 务 与 由 拥有 者 -计算 规则 限定 的 那 部 分 数 
据 密 切 相 关 。 因 此 ， 映 射 相关 数据 到 进程 与 映射 任务 到 进程 等 价 。 下 面 将 研究 一 些 常用 的 在 
进程 中 分 配 数 组 或 人 第 阵 的 技术 。 

(i) 块 分 配 

117! . 块 分 配 (block distribution) 是 分 配 数组 并 分 派 数组 的 均匀 相 邻 部 分 到 不 同 进程 的 最 简单 

方式 之 一 。 在 这 些 分 配 中 ，d 维 数组 在 进程 之 间 分 配 ， 使 得 沿 着 数组 维 的 给 定子 集 ， 每 一 进程 
接收 数组 项 的 连续 块 。 当 存在 交互 的 本 地 性 时 ， 数 组 的 块 分 配 是 非常 适合 的 ， 就 是 说 ， 计 算 
数组 的 一 个 元 素 时 需要 用 到 数组 中 临近 的 其 他 元 素 。 

例如 ， 考 虑 一 个 具有 n 行 n 列 的 n x n 二 维 数组 4。 现 在 选择 一 个 维 ， 例 如 第 一 维 ， 并 将 数组 
划分 成 p 个 部 分 ， 使 得 第 个 部 分 包含 kn /p .… (k+1) n/p-1 行 ， 其 中 0 < k < p。 就 是 每 一 划分 包 
含 数组 4 的 n /p 相 邻 行 的 一 个 块 。 同 样 ， 如 果 按 第 二 维 划分 ， 每 一 划分 包含 n /p 相 邻 列 的 一 个 
块 。 这 两 种 分 配 如 图 3-24 所 示 。 


按 行 分 配 按 列 分 配 





图 3-24 一 个 数组 在 8 个 进程 之 间 的 一 维 划分 示例 


同样 ， 如 果 不 按 一 维 来 划分 ， 则 可 以 按 多 维 进行 划分 。 例 如 ， 对 于 数组 4 选取 两 个 维 并 把 
它 划 分 为 多 个 块 ， 每 一 块 包含 其 中 的 n /pi x n /ps 部 分 ， 其 中 p = pi x P? 为 进程 数 。 图 3-25 显 示 
分 别 在 4 x 4 和 2 x 8 进程 网 烙 上 的 两 种 不 同 的 二 维 分 配 。 一 般 说 来 ， 对 于 d 维 数组 ， 可 以 使 用 最 
多 d 维 块 的 分 配 。 z : 





图 3-25 数组 二 维 分 配 的 例子 : a) 在 4 x 4 进程 网 格 上 ; 
b) 在 2 x 8 进程 网 格 上 
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使 用 这 些 块 分 配 ， 可 以 使 多 维 数组 上 的 各 种 并 行 计算 操作 达到 负载 平衡 。 例 如 ， 在 3.2.2 
告 讨论 过 的 n xn 矩阵 乘法 C = 4 x 38 中， 计算 分 解 的 一 个 方式 就 是 划分 输出 矩阵 C。 由 于 C 的 每 
元素 需要 同样 的 计算 ， 可 以 使 用 一 维 或 二 维 块 分 配 在 p 个 可 用 进程 之 间 均 衡 划分 C， 使 计算 
平衡 。 在 第 一 种 情况 下 ， 每 一 进程 将 获得 C 的 n /p 行 (或 列 ) 的 一 个 块 ， 而 在 第 二 种 情况 下 ， 

每 一 进程 将 得 到 大 小 为 n/p xn/Vp 的 块 。 在 两 种 情况 ， 每 一 进程 将 负责 计算 C 中 分 配给 它 
的 那 部 分 元 素 。 

如 和 矩阵 相 乘 的 例子 所 示 ， 我 们 经 常 可 以 选择 一 维 或 二 维 划分 来 进行 映射 计算 (对 于 更 高 
维 数 的 数组 有 更 多 选择 )。 通 常 ， 高 维 的 分 配 将 可 以 使 用 更 多 的 进程 。 例 如 ， 对 于 矩阵 -矩阵 
相 乘 ， 一 维 划分 通过 简单 地 分 配 C 的 一 行 到 一 个 进程 ， 最 多 可 以 使 用 n 个 进程 。 另 一 方面 ， 二 
维 划 分 通过 分 派 C 的 一 个 元 素 到 每 个 进程 ， 最 多 可 以 使 用 个 进程 。 \ 

除了 可 以 得 到 更 高 的 并 发 度 以 外 ， 对 于 许多 问题 ， 更 高 维 分 配 有 时 也 有 助 于 减少 不 同 进 
程 间 的 交互 。 图 3-26 显 示 稠 密 和 矩阵 相 乘 的 情况 。 对 于 沿 着 行 的 一 维 划分 ， 每 一 进程 需要 访问 [119| 
矩阵 4 的 相应 mp 行 以 及 整个 矩阵 B， 如 图 3-26a 中 的 进程 P;。 这 样 需要 访问 的 数据 总 量 为 2/P 
+ 72。 然 而 ， 对 于 二 维 分 配 ， 每 一 进程 需要 访问 和 矩阵 4 的 n/p 行 和 矩阵 有 的 内 WP 列 ， 如 图 
3-26b 中 的 进程 Ps。 在 两 维 的 情形 ， 每 一 进程 需要 访问 的 总 共享 数据 量 为 O(n* /Vp) ， 它 明显 
小 于 一 维 的 O(n?) 共 享 数 据 量 。 


A 





a) 一 维 划 分 输出 矩阵 


A B 





b) 二 维 划 分 输出 矩阵 


图 3-26 和 矩阵 相 乘 所 需 的 数据 共享 。 进 程 计算 输出 矩阵 C 的 
阴影 部 分 要 用 到 输入 矩阵 4 和 B 的 阴影 部 分 


(ii) 循环 分 配 和 块 循环 分 配 
如 林 一 个 抵 阵 不 同 元 素 的 计算 量 不 同 ， 那 么 块 分 配 将 会 引起 负载 不 平衡 。 和 矩阵 的 LU 分 解 
就 是 这 种 情况 的 一 个 典型 例子 ， 其 中 从 和 矩阵 的 左上 角 到 右 下 角 ， 计 算 量 不 断 增 加 。 
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算法 3-3 分 解 非 退 化 和 矩 阵 A 为 一 个 下 三 角 和 矩阵 L 和 一 个 上 三 角 和 矩阵 U 的 以 列 为 基础 的 串 行 算法 


procedure COL_LU (4) 
begin 
fork := 1ton do 
for j :=kton do 
ALj, Kk] := ALj, Kk]/A[k, kK]; 
endfor; 
for j := 人 十 1tondo 
fori := 上 k++1ton do 
: ALi, Jj} := ALi, j] ~ Ali, Kk] x ALK, j); 
0. endfor; 
1. endfor; 


二 OFM 


/* . 
After this iteration, column 4[K 十 1 :n,k]is logically the kth 
column of L and row A[k,k : n] is logicaliy the kth row of U. 
*/ : 
12. emdfor; , 
13， endCOLLU 


注 : 年 阵 和 ” 与 矩阵 4 共享 空间 。 如 果 i > j， 第 9 行 中 赋值 左边 的 [i, 有] 与 L[i, 用 等 价 ， 否 则 A[i, 月 与 w 有 等 价 。 


120| ” 例 3.10 稠密 LU 分 解 


在 这 种 分 解 的 最 简单 的 形式 中 ，LU 分 解 算法 把 一 个 非 退化 方 阵 4 分 解 为 一 个 下 三 角 托 阵 忆 
和 一 个 上 三 角 和 矩阵 U 的 乘积 ， 下 三 角 和 矩阵 L 的 对 角 线 元 素 为 1!。 算 法 3-3 为 它 的 串 行 算法 。 令 4 
为 一 个 n x n 和 矩阵 ， 行 与 列 标号 从 1 到 n。 因 式 分 解 过 程 包括 n 个 主要 的 步骤 一 一 每 一 步 包括 算 法 
3-3 中 从 第 3 行 开 始 的 一 次 外 层 循环 迭代 。 在 第 k 步 中 ， 首 先 用 A[k, 如 除 部 分 列 A[k +1 : n, 各。 然 
后 从 (zz- 癌 x (7 有 子 所 了 阵 4[K +1 : 由, 大 +1] 中 减 去 外 积 4[E +1 :7 有 x A[K +1 : n, Kk]。 在 实际 LU 分 
解 中 ,KL 和 U 并 不 使 用 分 开 的 数组 ， 并 且 A4 被 修改 ,分别 用 它 的 上 三 角 和 下 三 角 部 分 存储 L 和 U。 
L 中 的 主 对 角 线 上 的 1 是 隐 含 的 ， 因 式 分 解 完 成 后 ， 对 角 线 元 素 实 际 上 属于 U。 

图 3-27 中 显示 将 LU 因 式 分 解 的 划分 为 14 个 任务 的 一 种 可 能 分 解 ， 其 中 使 用 矩阵 的 一 个 
3 x 3 块 划分 ， 并 用 算法 3-3 的 块 形式 。 图 


AI Al2 Ai3 Li! 0 0 Un U2 U3 
A21 422 423 | 一 | ZL21 L22 0 . 0 U2 Us 
43.1 A32 433 Ls1 232 工 3.3 0 0 U3 


1 AL1 > LUL! | 6: 422 = 422 — L21U12 | 11: L32 = A3.2U7]} 

2: L21= A2.1UT! 17: 43.2 = A32— L310U12 | 12: U23 = L7242,3 

3: 1L3,1 = A3.1UT] 8: 42.3 = 42.3 一 L2.1U13 | 13: 433 = 433 — L3,2U2.3 
4: Ui2 = Li1A12 {9: A33 = A33— E31U13 | 14: A33 一 L33033 

5: U13 = Li1A1,3 10: A2.2 一 L220U2 2 










图 3-27 将 LU 因 式 分 解 为 14 个 任务 的 一 个 分 解 


在 算法 3-3 中 ， 对 于 外 层 循环 k : = 1 到 n 的 每 次 选 代 ， 下 一 舱 套 循环 都 从 k +1 到 n。 换 句 话 
说 ， 当 计算 进行 的 时 候 ， 矩 阵 参与 计算 的 部 分 朝 右 下 角 方 向 收缩 ， 如 图 3-28 所 示 。 因 此 ， 在 . 
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块 分 配 中 ， 与 分 配 到 最 后 行 与 列 的 进程 相 比 ， 分 配 到 开始 行 与 列 的 进程 ( 即 左 边 行 和 顶部 列 ) 
的 计算 量 要 少 得 多 。 例 如 ， 图 3-27 中 对 于 LU 因 式 分 解 的 分 解 采 用 和 矩阵 的 3 x 3 二 维 块 划分 。 假 
如 在 总 共有 9 个 进程 中 ， 映 射 与 某 个 块 相关 的 所 有 任务 到 一 个 进程 中 ， 那 么 会 造成 很 大 的 空闲 
时 间 。 首 先 ， 因 为 计算 矩阵 不 同 块 需要 不 同 工 作 量 ， 如 图 3-29 所 示 。 例 如 ， 计 算 A1, 的 最 终 值 
(实际 上 是 Li U11) 仅 需要 一 个 任务 一 一 任务 1。 另 一 方面 ， 计 算 43.: 的 最 终 值 需要 3 个 任 
务 _ ”任务 9、 任 务 13 和 任务 14。 第 二 ， 即 使 与 块 相关 的 任务 还 没有 完成 ， 在 块 上 工作 的 进程 
出 可 能 空间 。 如 果 在 一 个 或 更 多 映射 到 其 他 进程 中 的 任务 执行 完 之 前 ， 任 务 依赖 图 不 允许 这 [24 
个 进程 剩 下 的 任务 继续 ， 那 这 个 进程 就 会 空闲 。 
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块 循环 分 配 (block-cyclic distribution) 是 块 分 配方 案 的 一 种 变 体 ， 可 用 来 缓解 负载 不 平 
衡 和 进程 空闲 问题 。 第 8 章 将 详细 地 讨论 使 用 块 循环 映射 的 LU 分 解 ， 讲 述 块 循环 分 配 怎样 使 
得 任务 分 配 比 图 3-29 中 的 更 加 平衡 。 块 循环 分 配 的 中 心思 想 是 把 数组 划分 成 比 可 用 进程 数 更 
多 的 块 ， 这 样 就 可 以 采用 循环 的 方式 把 划分 (和 相关 任务 ) 分 派 给 进程 ， 以 便 每 一 进程 都 能 
得 到 若干 不 相 邻 的 块 。 更 确切 地 说 ， 在 p 个 进程 之 间 的 矩阵 的 一 维 块 循环 分 配 中 ，n x n 和 矩阵 的 
行 ( 列 ) 被 划分 为 mw(ap) 相 邻 的 行 ( 列 ) 的 ap 组 ， 其 中 1< a< n/p。 现 在 这 些 块 以 环绕 方式 分 [122 
配 到 p 个 进程 ， 块 b; 被 分 派 到 进程 己 w (%% 是 模 运算 符 )。 这 种 分 配 分 派 矩阵 的 o 抉 到 每 一 进程 ， 
但 以 后 分 配 到 同一 进程 的 每 个 块 都 相距 p 块 。 通 过 划分 n x mn 短 阵 为 大 小 为 cVP x ayP 的 方块 ， 
并 以 环绕 方式 分 派 它们 到 一 个 假想 的 Vp x Vp 进程 数组 中 ， 就 能 获得 矩阵 的 二 维 块 循环 分 配 。 
同样 ， 块 循环 分 配 也 能 扩展 到 更 高 维 的 数组 中 。 图 3-30 显 示 二 维 数组 的 一 维和 二 维 块 循环 分 
配 。 

因为 所 有 进程 都 从 矩阵 的 各 个 部 分 得 到 一 个 任务 样本 ， 所 以 块 循环 分 配 能 极 大 地 减少 进 
程 的 空闲 时 间 。 这 样 ， 即 使 矩阵 的 不 同 部 分 需要 不 同 计算 时 间 ， 每 一 进程 的 工作 量 是 均衡 的 。 
同时 ， 由 于 分 派 到 某 一 个 进程 的 任务 属于 矩阵 的 不 同 部 分 ， 这 样 至 少 进程 的 某 些 任务 很 可 能 
在 任意 指定 时 刻 做 好 执行 的 准备 。 
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a) 数组 的 行 分 组 为 块 ， 每 块 包含 两 b) 矩阵 划分 为 16 个 块 ， 每 块 大 小 
行 ， 得 到 8 个 行 块 。 这 些 块 以 回 绕 为 4 x 4， 并 以 环绕 方式 映射 到 
方式 分 配 到 4 个 进程 中 2 x 2 的 进程 网 格 中 


图 3-30 4 个 进程 间 的 一 维和 二 维 块 循环 分 配 的 例子 


假如 增加 a 到 它 的 上 限 n/p， 那 么 在 一 维 块 循环 分 配 中 每 一 块 只 有 一 行 ( 列 )， 而 在 二 维 
央 循 环 分 配 中 每 一 块 只 有 一 个 元 素 。 这 种 分 配 称 为 循环 分 配 (cyclic distribution ) 。 循 环 分 本 
和 在 块 循环 分 配 的 极端 情况 ， 由 于 分 解 的 极 细 粒 度 ， 可 以 得 到 很 好 的 负载 平衡 。 然 而 ， 由 于 进 
程 中 没有 任何 相 邻 数据 ， 没 有 本 地 性 可 能 造成 严重 的 性 能 缺陷 。 另 外 ， 与 每 一 任务 的 总 计算 
量 相 比 ， 这 样 的 分 解 通常 会 导致 高 度 的 交互 。c 的 下 限 1 会 产生 最 大 的 本 地 性 和 最 优 交互 性 ， 
但 这 种 分 配 退 化 成 为 块 分 配 。 因 此 ， 一 个 适当 的 o 值 必须 用 来 保持 交互 守恒 和 负载 平衡 之 间 


”的 均衡 。 


如 像 块 分 配 的 情形 ， 高 维 块 循环 分 配 通 常 更 可 取 ， 因为 这 样 会 使 得 任务 间 更 少 的 交互 。 


(ii) 随机 块 分 配 

当 任务 分 配 具 有 一 些 特别 的 模式 时 ， 块 循环 分 配 并 不 总 能 平衡 负载 计算 。 例 如 ， 考 虑 图 
3-31a 中 的 稀 朴 和 矩阵， 其 中 阴影 区 域 对 应 于 包含 非 零 元 素 的 区 域 。 假如 这 个 矩阵 的 分 配 使 用 二 
维 块 循环 分 配 ， 如 图 3-31b， 那么 对 角 线 上 的 进程 Pp、P;、 Plo 和 Pis 将 会 被 分 配 到 比 其 他 进程 更 
多 的 非 零 元 素 。 实 际 上 ， 一 些 如 Pl, 这 样 的 进程 ， 根本 得 不 到 任何 任务 。 

随机 块 分 配 (randomized block distribution ) 是 更 通用 的 块 分 配 形 式 ， 能 够 用 在 如 图 3-31 
所 示 的 情况 中 。 与 块 循环 分 配 一 样 ， 过 过 使 划分 的 数组 块 数 多 于 可 用 进程 数 来 寻求 负载 平衡 。 
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然而 ， 块 被 均匀 地 和 随机 地 分 配 到 进程 中 。 可 用 如 下 方式 实现 一 维 随 机 块 分 配 : 使 用 长 度 为 
ap (等 于 块 数 ) 的 向 量 V， 对 于 0 <j< ap，V[ 四 设置 为 j。 现 在 随机 排列 V， 并 把 在 存储 在 
V[ia … (i +1)a-1] 中 的 块 分 配给 进程 P 。 图 3-32 显 示 p = 4 和 aQ = 3 时 的 情况 。 对 n x "数组 的 一 
维 随机 块 分 配 同 样 可 以 通过 下 面 的 方式 计算 得 到 : 随机 排列 长 度 为 ayp 两 个 向 量 的 每 一 个 ， 
并 用 它们 来 选择 分 派 到 每 个 进程 的 块 的 行 下 标 和 列 下 标 。 如 图 3-33 所 示 ， 随 机 块 分 配 比 图 
3-31 中 执行 的 负载 平衡 计算 更 为 有 效 。 





a) 
图 3-31 用 b) 所 示 的 块 循环 分 配 分 配 阵列 
a) 中 进行 的 计算 将 导致 负载 不 平衡 

V=[0,. 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11] 


random(V) = [8, 2, 6, 0, 3, 7, 11, 1, 9, 5, 4, 10] 


映射 =8 260374l195410 
CE fi Wd 





图 3-32 一 维 随机 块 映 射 12 个 块 到 4 个 进程 ( 即 & = 3) 


图 划分 “对 于 使 用 稠密 矩阵 并 有 结构 和 规则 交互 模式 的 许多 算法 ; 在 平衡 计算 和 最 小 化 交 
互 方面 ， 前 面 讲述 的 基于 数组 的 分 配方 案 都 非常 有 效 。 然 而 ， 有 许多 运行 在 稀疏 数据 结构 上 
的 算法 ， 这 些 算 法 的 数据 元 素 间 的 交互 模式 具有 数据 依赖 ,并且 非 常 不 规则 。 物理 现象 的 数 
值 模拟 提供 了 这 种 计算 类 型 的 大 量 来 源 。 在 这 些 计算 中 ， 物 理 定义 域 被 离散 化 并 用 格 网 单元 
来 表示 。 物 理 现象 的 模拟 被 建 模 ， 然 后 计算 各 个 格 网 点 物理 量 的 值 。 一 个 格 网 点 上 的 计算 通 
常 需要 与 该 点 对 应 的 数据 以 及 与 格 网 中 相 邻 点 对 应 的 数据 。 例 如 ， 图 3-34 显 示 苏 必 利 尔 湖 
(Lake Superior) 上 的 格 网 ， 对 湖 中 水 污染 扩散 物理 现象 的 模拟 包含 计算 在 各 种 不 同 的 时 间 间 
隔 格 网 上 各 个 顶点 的 污染 等 级 。 

通常 各 个 格 网 点 的 计算 量 都 相同 ， 所 以 ， 只 要 分 派 相 同 数量 的 格 网 点 到 每 一 进程 ， 就 可 
以 很 容易 地 达到 负载 平衡 。 然 而 ， 如 果 不 尽量 分 派 相 邻 格 网 点 到 同一 进程 ， 就 可 能 由 于 过 多 
的 数据 共享 而 导致 高 的 交互 开销 。 例 如 ， 假 如 每 一 进程 收 到 的 格 网 点 集 是 随机 的 ， 如 图 3-35 
所 示 ， 那 么 每 一 进程 就 要 访问 一 个 很 大 的 属于 其 他 进程 的 点 集 ， 才 能 完成 分 派 给 它 的 格 网 点 
计算 。 
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图 3-33 用 b) 中 所 示 的 二 维 随机 块 分 配 来 分 配 阵列 a) 中 执行 的 计算 如 c) 中 所 示 
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图 3-35 格 网 单元 分 配 到 8 个 进程 的 一 种 随机 分 布 


理想 情况 下 ， 我 们 希望 分 配 格 网 点 使 得 负载 平衡 ， 同 时 ， 使 得 每 一 进程 完成 属于 它 的 格 网 
点 计算 需要 访问 的 数据 量 最 小 化 。 因 此 就 需要 划分 格 网 为 p 个 部分， 每 一 部 分 包含 数量 大 致 相 
等 的 格 网 点 或 项 所 ， 而 且 罕 过 边界 的 边 (也 就 是 连接 属于 两 个 不 同 划 分 点 的 边 ) 最 小 化 。 寻 
找 确切 的 最 优 划分 是 一 个 NP 完 全 问题 。 然 而 ， 采 用 强大 的 启发 式 算法 能 计算 一 些 合理 的 划分 。 
在 用 这 种 方式 得 到 的 格 网 点 划分 中 ，p 个 划分 中 的 每 一 个 被 分 派 给 p 个 进程 中 的 一 个 。 结 果 ， 
每 一 进程 被 分 配 一 个 相 邻 区 域 的 格 网 ， 使 得 需要 跨 划分 边界 访问 的 格 网 点 数 最 小 。 图 3-36 显 示 
126| ” 苏 必 利 尔 湖 格 网 的 一 种 很 好 的 划分 一 一 典型 的 图 划分 软件 能 产生 这 种 划分 。 
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图 3-36 汪 国 划分 售 法 将 格 们 单元 认 和 向 f 直 


2. 以 任务 划分 为 基础 的 映射 
有 一 种 映射 基于 划分 任务 依赖 图 ， 并 将 节点 映射 到 进程 中 ， 当 计算 可 用 任务 大 小 已 知 的 
静态 任务 依赖 图 形式 自然 地 表示 出 来 时 ， 可 以 采用 这 种 映射 。 与 前 面 的 方法 一 样 ， 该 映射 也 


要 达到 并 行 算 法 中 最 小 化 空闲 时 间 和 最 小 化 交互 时 间 这 两 个 冲突 的 目标 。 决 定 一 个 通用 任务 


依赖 图 的 最 优 映射 是 NP 完 全 问题 。 但 在 特定 情况 下 ， 人 们 通常 可 以 找到 简单 的 最 优 解 或 可 接 
受 的 近似 解 。 

守信 一 叉 树 的 任务 依赖 图 是 以 任务 划分 为 基础 的 简单 例子 。 这 种 任务 依赖 图 会 出 现在 一 
些 使 用 递归 分 解 的 实际 问题 中 ， 例 如 在 一 个 列表 中 查找 最 小 值 的 问题 (图 3-9)。 图 3-37 显 示 
将 这 个 任务 依赖 图 映射 到 8 个 进程 时 的 情况 。 很 容易 看 出 ， 通 过 映射 相互 依赖 的 任务 到 同一 个 
进程 ( 即 沿 着 树 的 直接 分 支 上 的 任务 ), 而 其 他 任务 映射 到 彼此 相距 只 有 一 个 通信 链 路 的 进程 ， 
就 可 使 交互 开销 最 小 化 。 虽 然 会 有 一 些 不 可 避免 的 空闲 〈 例 如 ， 进 程 0 在 处 理 根 任务 时 所 有 其 
他 进程 空间 )， 但 这 种 空闲 是 任务 依赖 图 所 固有 的 。 图 3-37 所 显示 的 映射 并 没有 造成 任何 附加 
的 空 闪 ， 由 任务 依赖 图 允许 并 发 执行 的 所 有 任务 被 映射 到 并 行 执行 的 不 同 进程 。 

对 于 某 些 问题 ， 通 过 划分 任务 交互 图 ， 可 以 得 到 求解 这 些 问题 的 映射 方法 的 近似 解法 。 
在 前 面 讨论 的 数据 划分 中 ， 关 于 苏 必 利 尔 湖 污染 扩散 的 模拟 问题 ， 可 以 定义 让 每 一 任务 负责 
一 个 特定 格 网 点 的 有 关 计 算 。 现在， 这 个 用 来 使 苏 必 利 尔 湖 离散 化 的 格 网 也 可 作为 任务 交互 
图 。 因 此 ， 对 于 这 个 问题 ， 通 过 图 划分 寻找 好 的 师 射 方法 也 可 被 看 作为 任务 划分 。 
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3.1.2 节 讨论 的 稀疏 矩阵 相 乘 也 可 采用 任务 划分 。 图 3-38 中 显示 图 3-6 的 一 个 简单 任务 交互 
图 映射 。 这 种 映射 把 与 25 的 4 个 相 邻 元 素 对 应 的 任务 分 派 到 每 个 进程 。 对 于 图 3-6 中 显示 的 3 个 
进程 的 稀 朴 矩阵 和 向 量 相 乘 问题 ， 图 3-39 显 示 另 一 种 任务 交互 图 的 划分 。 列 表 Ci 包 含 p 的 下 标 ， 
它 表 示 进 程 i 上 的 任务 需要 从 映射 到 其 他 进程 的 任务 访问 数据 。 在 这 两 种 情况 下 ， 比 较 列表 C0， 
Cl1 和 C2 可 以 发 现 ， 建 立 在 划分 任务 交互 图 上 的 映射 比 简单 的 映射 造成 更 小 的 进程 间 b 的 元 素 
交换 。 
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图 3-38 黎 玻 和 矩阵 向 量 相 乘 映射 到 3 个 进程 的 一 种 方法 。 
列表 Ci 包含 进程 遍 要 从 其 他 进程 访问 的 b 元 素 下 标 
Cl = (0,5,6) 进程 1 
进程 0 
C0 = (1,2,6.9) 





进程 2 C2 = (1,2,4,5,7,8) 
图 3-39 通过 划分 任务 交互 图 减少 稀 玻 矩阵- 向量 相 乘 的 交互 开销 


3. 分 级 映射 

有 些 算 法 可 以 自然 地 表示 为 任务 依赖 图 ; 然而 ， 纯 粹 建立 在 任务 依赖 图 上 的 映射 可 能 会 
遇 到 负载 不 平衡 ， 或 并 发 度 不 够 。 例 如 ， 在 图 3-37 所 示 的 二 叉 树 任务 依赖 图 中 ， 树 的 顶部 只 
有 小 部 分 任务 可 并 行 执行 。 如 果 任 务 足够 大 ， 则 将 任务 进一步 分 解 成 更 小 的 子 任务 ， 就 能 得 
到 更 好 的 映射 。 如 有 果 任 务 依赖 图 为 四 层 二 叉 树 ， 则 根 任务 可 在 8 个 进程 中 划分 ， 下 一 层 的 每 个 
任务 在 4 个 进程 中 划分 ， 再 下 一 层 的 每 个 任务 在 二 个 进程 中 划分 。8 个 叶子 任务 可 以 一 一 映射 
到 进程 中 。 图 3-40 显 示 这 种 分 级 映射 。 例 3.4 介 绍 的 并 行 快速 排序 具有 和 图 3-37 相 似 的 任务 依 
赖 图 ， 因 此 图 3-40 所 示 的 分 级 映射 的 理想 候选 对 象 。 
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图 3-40 任务 依赖 图 分 级 映射 的 一 个 例子 。 数 组 代表 的 
每 一 节点 是 超 任务 。 数 组 的 划分 表示 子 任 务 ， 
这 些 子 任务 映射 到 8 个 进程 中 


上 面 讨论 的 分 级 映射 直接 应 用 的 一 个 重要 实际 问题 是 在 稀疏 矩阵 分 解 。 稀 玻 矩阵 分 解 中 
的 高 层次 计算 由 称 为 消去 图 (如果 和 矩阵 对 称 则 为 消去 树 ) 的 任务 依赖 图 引导 。 然 而 ， 消 去 图 
中 的 任务 (尤其 是 靠近 根 的 任务 ) 通常 包括 大 量 计算 ， 要 使 用 数据 分 解 进一步 划分 为 子 任务 。 
分 级 映射 在 顶层 使 用 任务 划分 ， 在 底层 使 用 数组 划分 ， 所 以 应 用 了 混合 分 解 。 一 般 地 ， 分 级 
映射 具有 许多 层 ， 不 同 的 分 解 和 映射 技术 可 以 适合 不 同 的 层 。 


3.4.2 动态 映射 方案 


和 如果 静态 映射 导致 进程 间 负载 高 度 不 平衡 ， 或 任务 依赖 图 本 身 就 是 动态 的 ， 就 必须 采用 
动态 映射 而 排除 静态 映射 。 由 于 用 动态 映射 的 首要 原因 是 保持 进程 间 的 负载 平衡 ， 动 态 映射 
所 条 汶 动态 负 缉 下。 动员 技术 通 党 人 为 集中 式 下 分布 ， 


1. 集中 式 方 案 

在 集中 动态 负载 平衡 方案 中 ， 所 有 可 执行 的 任务 都 维持 在 一 个 公用 的 中 心 数据 结构 里 ， 
或 者 维持 在 一 个 特别 进程 中 或 进程 子 集中 。 如 果 用 特别 进程 来 管理 可 用 任务 池 ， 则 通常 称 该 
进程 为 主 进程 (master)， 而 称 其 他 靠 主 进程 来 获取 任务 的 进程 为 从 进程 (slave)。 当 一 个 进 
程 没有 任务 时 ， 它 就 从 中 心 数据 结构 或 主 进程 处 获取 一 部 分 可 用 任务 。 当 新 任务 产生 时 ， 它 
就 被 添加 到 中 心 数 据 结构 中 或 通报 告 主 进程 。 通 常 ， 集中 式 负 载 平衡 方案 比分 布 方案 更 容易 
实施 ， 但 可 能 限制 可 扩展 性 。 如 果 使 用 的 进程 越 来 越 多 ， 大 量 访问 公用 数据 结构 或 主 进程 就 
会 导致 瓶颈 。 

下 面 举 一 个 集中 式 映射 适用 的 一 个 例子 ， 对 n x n 和 矩阵 4 的 每 一 行 中 的 元 素 进行 排序 。 用 串 
行 方式 ， 可 用 下 面 的 简单 程序 段 完 成 : 


1 for (i=1l; icn; I++) 
2 sort (A[i] mn) ， 


如 末 使 用 一 些 常用 的 排序 算法 ， 如 快速 排序 ， 排 序 花 费 的 时 间 会 由 于 要 排序 元 素 的 初始 
状态 会 大 不 相同 。 因 此 ， 上 面 程序 段 的 每 一 次 循环 迭代 可 能 花费 不 同 的 时 间 。 如 果 用 简单 的 


心 
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映射 方法 ,将 对 矩阵 的 每 一 行进 行 排序 的 任务 分 配给 每 一 进程 ， 就 会 造成 负载 不 平衡 。 这 种 
情况 下 ， 要 解决 潜在 的 负载 不 平衡 ， 可 以 通过 维持 一 个 待 排序 行 的 中 心 下 标 池 来 解决 。 当 有 
进程 空 亲 时 ， 下 标 地 只 要 不 为 空 ， 空 闲 进程 就 会 拾取 一 个 可 用 王 标 ， 对 此 下 标的 行进 行 排序 ， 
并 从 下 标 池 中 删除 此 下 标 。 这 种 在 并 行进 程 的 调度 循环 中 独立 选 代 方法 称 为 自 调度 【self 
scheduling ) 。 

对 保持 计算 的 平衡 来 说 ， 一 次 只 对 一 个 进程 分 派 一 个 任务 是 十 分 有 效 的 ; 然而 在 访问 共 
时 工作 队列 时 ， 可 能 会 成 为 瓶颈 ， 尤 其 当 每 一 个 任务 〈 即 这 种 情况 下 的 每 一 次 循环 和 迭代) 不 
需 足 人 够 大 的 计算 量 时 更 是 如 此 。 假 如 每 一 任务 大 小 为 M， 要 花费 A 时 间 分 派 一 个 任务 到 进程 ， 
那么 最 多 只 有 MI/A 个 进程 能 有 效 地 保持 忙 状态 。 如 果 进 程 一 次 得 到 多 个 任务 ， 这 种 瓶颈 就 可 以 
缓解 。 在 块 调 度 (chunk scheduling) 中 ， 每 次 一 个 没有 工作 的 进程 会 得 到 一 组 任务 。 这 种 方 
案 的 法 在 问题 是 ， 如 果 一 次 分 派 到 的 任务 数量 (也 就 是 块 ) 很 大 ， 就 可 能 导致 负载 不 平衡 。 
当 程 序 运 行 中 减 小 块 的 大 小 ， 可 以 减少 由 大 块 造成 的 负载 不 平衡 。 也 就 是 说 ， 开 始 块 很 大 ， 
但 随 着 剩 下 的 返 代 次 数 的 减少 ， 块 也 不 断 减 小 。 已 经 设计 出 许多 逐 浙 调节 块 大 小 的 方法 ， 减 
小 块 大 小 既 可 以 是 线性 的 也 可 以 是 非 线 性 的 。 


2. 分 布 式 方案 

在 分 布 式 动态 负载 平衡 方案 中 ， 可 执行 任务 集 被 分 布 在 多 个 进程 中 ， 在 运行 时 通过 交换 
任务 来 保持 负载 平衡 。 每 一 进程 都 可 以 发 送 任务 或 从 其 他 进程 接收 任务 。 这 些 方法 不 会 引起 
集中 式 方 法 中 的 瓶颈 。 分 布 式 负载 平衡 方案 中 的 一 些 关键 参数 如 下 : 

* 怎样 成 对 地 发 送 和 接收 进程 ? 

* 由 发 送 者 还 是 接收 者 启动 任务 的 传递 ? 

* 每 次 交换 中 传递 多 少 任务 ? 假如 传递 任务 太 少 ， 那 么 接收 者 可 能 得 不 到 足够 任务 ， 而 频 

对 的 传递 会 导致 过 多 的 交互 。 而 如 果 传 递 任务 太 多 ， 那 发 送 者 很 快 就 会 空 闪 ， 又 会 导致 

频 勾 的 传递 。 

* 何 时 传递 任务 ? 例如 ， 在 接收 者 发 起 的 负载 平衡 中 ， 当 进程 已 经 运行 完 任务 或 接收 者 只 

剩 下 太 少 任务 并 且 预 先 的 任务 不 久 就 要 执行 完 时 就 需要 新 的 任务 。 

对 上 面 每 一 个 参数 的 详细 研究 超出 本 章 的 范围 。 在 后 面 各 章 还 会 讨论 这 些 负载 平衡 方法 
运用 的 并 行 算法 ， 特 别 是 第 11 章 的 并 行 搜索 算法 。 


3. 并 行 结构 的 适应 性 

原则 上 ， 集 中 式 和 分 布 式 映射 方法 都 能 应 用 在 消息 传递 和 共享 地 址 空间 模式 中 。 然 而 ， 
动态 任务 负载 平衡 方案 的 性 质 决 定 了 这 些 方 法 需要 在 进程 间 传递 任务 。 因 此 ， 为 了 让 这 些 方 
案 能 在 消息 传递 计算 机 上 有 效 实现 ， 与 计算 对 应 的 任务 大 小 应 远大 于 与 任务 对 应 的 数据 大 小 。 
在 共享 地 址 空间 模式 中 ， 虽 然 也 有 一 些 隐 式 的 向 本 地 高 速 缓存 或 进程 存储 区 的 数据 移动 ， 但 
任务 不 需 显 式 移动 。 通 常 ， 在 共享 地 址 体系 结构 中 ， 待 移动 任务 的 计算 粒度 比 消息 传递 体系 
结构 上 的 要 小 得 多 。 


3.5 包含 交互 开销 的 方法 


如 早先 所 述 ， 对 于 有 效 的 并 行程 序 而 言 ， 减 少 并 行 任务 间 的 交互 开销 非常 重要 。 并 行程 
序 由 于 进程 间 的 交互 而 引起 的 开销 取决 于 多 个 因素 ， 如 交互 中 交换 数据 的 大 小 、 交 互 的 频率 
以 及 交互 的 空间 和 时 间 模 式 ， 等 等 。 
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本 三 将 讨论 城 少 并 行程 序 中 交互 开销 的 一 些 常 用 技术 。 这 些 技术 用 来 处 理 上 面 提 到 的 三 
个 因素 中 的 一 个 或 多 个 来 减少 交互 开销 。 有 些 技术 适用 于 设计 算法 的 分 解 和 映射 方案 ， 而 有 
些 技术 则 运用 于 在 给 定 的 模式 中 编写 算法 程序 。 疫 有 一 种 技术 对 于 所 有 并 行 编程 模式 而 言 都 
是 运用 的 ， 其 中 一 些 技术 还 需要 底层 硬件 的 支持 。 


3.5.1 最 大 化 数据 本 地 性 


住 大 多 数 非 平凡 并 行程 序 中 ， 不 同 进程 执行 的 任务 需要 访问 某 些 公用 数据 。 例 如 ， 在 稀 
琉 第 阵 -向 量 乘 法 》 = 4b 中 ， 与 计算 向 量 y 的 每 个 元 素 (图 3-6) 对 应 的 任务 需要 访问 输入 向 量 b 
的 所 有 元 素 。 除 了 共享 原始 输入 数据 外 ， 如 果 进 程 需要 用 到 由 其 他 进程 产生 的 数据 ， 那 么 也 
会 造成 交互 。 如 果 更 多 地 使 用 本 地 数据 或 最 近 已 被 取 来 的 数据 ， 则 交互 开销 能 够 减少 。 数 据 
本 地 性 增强 技术 包括 许多 方案 ， 用 来 最 小 化 对 非 本 地 数据 的 访问 ， 最 大 化 重用 最 近 访问 过 的 
数据 ， 以 及 最 小 化 访问 频率 。 许 多 情况 下 ， 这 些 方案 与 数据 重用 优化 在 本 质 上 是 相似 的 ， 它 
们 常用 在 基于 现代 高 速 缓存 的 微 处 理 器 中 。 

最 小 化 数据 交换 量 ”最 小 化 并 发 进程 要 访问 的 共享 数据 是 减少 交互 开销 的 一 个 最 基本 方 
法 。 这 与 最 大 化 时 间 数 据 本 地 性 相似 ， 就 是 尽 可 能 多 地 连续 引用 相同 数据 。 很 明显 ， 对 于 一 
个 进程 执行 的 任务 ， 要 尽 可 能 多 地 使 用 可 用 的 本 地 数据 进行 计算 ， 避 免 从 其 他 地 方 引 入 数据 
到 本 地 内 存 或 高 速 缓存 。 如 前 所 述 ， 使 用 合适 的 分 解 和 映射 方案 能 达到 这 一 目的 。 例 如 ， 在 
和 矩阵 相 乘 中 ， 如 果 使 用 从 计算 到 进程 的 二 维 映射 ， 就 可 以 减少 每 一 任 舅 需要 访问 的 共享 数据 
( 即 矩阵 4 和 8 ) 量 ， 与 一 维 映射 (图 3-26) 相 比 ， 数 据 量 从 nzp + er 碱 到 2n? /Vp 。 通 常 , 使 
用 更 高 维 分 布 有 助 于 减少 对 非 本 地 数据 的 访问 。 

使 用 本 地 数据 存储 中 间 结 果 是 减少 多 个 进程 需要 访问 的 共享 数据 量 另 一 个 方法 ， 并 只 在 
存放 最 终 计 算 结果 的 时 候 才 访问 共享 数据 。 例 如 ， 并 行 计 算 两 个 长 度 为 "的 向 量 点 积 时 ， 让 P 
个 任务 中 的 每 一 个 对 mP 对 元 素 相 乘 。 不 将 一 对 元 素 的 的 单独 乘积 添加 到 最 终结 果 中 去 ，. 而 是 
每 一 任务 首先 把 分 派 给 它 的 长 为 wp 的 向 量 生成 部 分 的 点 积存 储 在 本 地 ， 最 后 只 需 访 问 最 终 共 
享 位 置 一 次 ， 把 这 个 部 分 结果 添加 到 最 终结 果 中 去 。 访 问 共享 数据 的 次 数 将 从 n 次 减少 到 p 次 。 

最 小 化 交互 频率 ”最 小 化 交互 频率 是 减少 并 行程 序 中 交互 开销 的 一 个 重要 方法 ， 因 为 在 许 
多 体系 结构 中 ， 每 一 次 交互 都 有 一 个 相对 高 的 启动 开销 与 之 对 应 。 重 构 算法 ， 使 得 共享 数据 
以 大 量 的 数据 块 访问 和 使 用 ， 就 能 减少 交互 频率 。 这 样 ， 即 使 这 种 重 构 未 必 能 减少 需要 访问 
的 总 共享 数据 量 ， 通 过 大 量 的 访问 减少 启动 开销 ， 就 可 以 减少 总 交互 开销 。 这 与 增加 数据 访 
问 的 空间 本 地 性 很 相似 ， 就 是 确保 连续 访问 数据 位 置 很 接近 。 在 共享 地 址 空间 体系 结构 中 ， 
每 访问 一 个 字 时 ， 整 个 包括 许多 字 的 高 速 缓存 行 都 被 取 来 。 如 果 程 序 具有 空间 本 地 性 ， 那 么 
就 只 要 访问 很 少 的 高 速 缓存 行 。 在 消息 传递 系统 中 ， 空 间 本 地 性 使 得 网 络 中 的 消息 传递 很 少 ， 
因为 每 一 个 消息 可 以 传递 更 大 量 有 用 的 数据 量 。 在 消息 传递 系统 中 ， 如 果 交 互 模式 允许 ， 且 
多 个 消息 的 数据 可 同时 获得 ， 尽 管 在 分 离 的 数据 结构 中 ， 也 可 以 将 同样 一 对 源 /目标 消息 组 合 
为 一 个 更 大 的 消息 来 进一步 减少 消息 数量 。 

夭 玻 垂 阵 -向 量 相 乘 的 并 行 形 式 可 以 使 用 这 种 技术 来 减少 交互 开销 。 在 典型 的 应 用 中 ， 要 
用 全 阵 的 非 零 模 式 但 不 同 数值 的 非 零 值 ， 对 稀疏 矩阵 -向 量 相 乘 重复 地 进行 计算 。 并 行 解决 这 
个 问题 时 ， 如 果 进 程 执行 本 地 计算 时 要 访问 输入 向 量 元 素 ， 则 它 可 能 要 和 其 他 进程 交互 。 进 
程 通过 对 分 派 给 它 的 稀 芍 矩阵 行 的 非 零 模 式 进 行 一 次 扫描 ， 就 可 以 确切 地 确定 需要 哪些 输入 


~ 
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向 量 的 元 素 ， 以 及 从 哪些 进程 中 可 以 得 到 它们 。 这 样 ， 在 开始 每 个 乘法 前 ， 进 程 可 以 首先 收 
集 它 所 需要 的 输入 向 量 的 非 本 地 元 素 ， 然 后 再 执行 无 交互 相 乘 。 与 在 计算 需要 的 时 候 再 去 访 
问 输入 向 量 的 非 本 地 元 素 相 比 ， 这 种 策略 要 好 得 多 。 


3.5.2 最 小 化 争 用 与 热点 


到 月 前 为 止 ， 我 们 讨论 的 减少 交互 开销 的 方法 都 集中 在 直接 或 间接 减少 数据 的 传输 频率 
和 传输 最 。 然 而 ， 数 据 访 问 和 任务 间 的 交互 模式 导致 的 争 用 也 会 增加 总 交互 开销 。 通 常 ， 当 
多 个 任务 试图 并 发 访问 同一 资源 时 就 会 产生 争 用 。 同 一 个 互 连 链 路 上 多 个 数据 的 同时 传输 、 
对 同一 存储 块 的 多 个 同时 访问 或 者 多 个 进程 同时 对 同一 个 进程 发 送 消息 、 都 会 产生 争 用 。 这 
是 因为 在 某 一 时 刻 多 个 操作 中 只 有 一 个 操作 可 以 执行 ， 而 其 他 的 必须 排队 并 且 顺 序 执 行 。 
考虑 两 个 矩阵 相 乘 C = 4B ， 采 用 如 图 3-26b 所 示 二 维 划分 。 披 设 p 是 任务 的 数量 ， 每 一 任 
务 映射 到 一 个 进程 。 让 每 一 任务 负责 计算 一 个 单独 的 值 C;; ， 基 中 0 <i, jg Vp 。 可 按 下 面 公 
式 直 接 计算 Cj 的 值 (以 矩阵 块 的 记号 写 出 ): 
Vp-! 
i,j 三 ik* Ber.) 
(Ci 2 Aik Br i (3-1) 
从 上 面 公式 的 存储 访问 模式 可 以 看 出 ， 在 yp 个 步骤 的 任何 一 步 中 ，Vp 个 任务 都 将 访问 
乱 阵 4 和 8 的 同一 块 特别 是 ， 计 算 C 的 同一 行 时 所 有 任务 都 将 访问 4 的 同一 块 。 例 如 ， 所 有 计 
算 Coo，Co.;，…， CD 的 Vp 个 进程 都 将 同时 试图 访问 4o。。 类 似 地 ， 所 有 计算 C 的 同一 列 的 
任务 都 要 访问 有 8 的 同一 块 。 在 NUMA 大 训 地 址 空间 和 消息 传递 并 行 体系 结构 中 ， 并 发 访问 矩阵 
4 和 8 的 这 些 块 的 需求 将 会 造成 争 用 。 
减少 争 用 的 一 个 方法 是 重新 设计 并 行 算法 ， 以 无 争 用 的 模式 访问 数据 。 对 于 和 矩阵 相 乘 算 
法 ， 通 过 改变 公式 (3-1) 执行 的 块 相 乘 的 顺序 ， 可 以 消除 这 种 争 用 。 执行 这 些 块 乘法 计算 C;, 
的 一 种 无 争 用 方法 是 用 下 面 和 的 公式 : 
vpPp-]l 
Ci = 》 AiGtiHO%Vp * BOrjrk)%B., : 
£=0 (3-2) 
其 中 “%” 表 示 模 运算 。 司 用 这 个 公式 ， 所 有 计算 C 中 同一 行 的 任务 P.; 都 将 访问 块 4 ,wwv; ， 
对 于 每 一 任务 这 都 是 不 同 的 。 类 似 地 ， 所 有 计算 C 中 同一 列 的 任务 Pi. 都 将 访问 块 B,,.,iw 5. ， 
对 于 每 一 任务 这 也 是 不 同 的。 这 样 ， 只 通过 简单 地 重新 安排 计算 抉 相 乘 的 顺序 就 可 以 完全 消 
除 争 用 。 例 如 ， 在 所 有 计算 C 的 第 一 行 块 的 进程 间 ， 计算 Co 的 进程 将 访问 4 的 第 一 行 块 中 的 
4o ,而 不 是 4o。。 
对 于 通 疝 主 进程 的 共享 数据 结构 和 通信 和 通道， 动态 映射 (3.4.2 节 ) 的 集中 式 方案 通常 是 
造成 争 用 的 一 个 主要 来 源 。 选择 分 布 式 映射 方案 法 代替 集中 式 映 射 方案 ， 可 以 减少 争 用 ， 虽 
然 前 者 可 能 更 难 实施 。 


3.5.3 ”使 计算 与 交互 重生 


在 灾 互 启动 后 ， 如 果 在 等 待 的 同时 做 一 些 有 用 的 计算 ， 进 程 花 在 等 待 共 享 数据 到 达 或 接 
收 额外 工作 上 的 总 时 间 可 以 减少 ， 而 且 会 减少 很 多 。 许 多 技术 可 用 来 使 计算 与 交互 重 盖 ， 





简单 的 重 登 方法 是 ， 足 够 旱地 启动 交互 ， 以 便 在 计算 需要 的 时 候 它 已 经 完成 。 为 了 达到 
这 个 目的 ， 必 须 能 够 鉴别 出 不 依赖 交互 并 能 在 交互 之 前 执行 的 计算 。 然 后 必须 组 织 并 行程 序 ， 
以 便 在 比 原 来 算法 需要 的 执行 时 间 点 之 前 启动 交互 。 通 常 ， 可 能 做 到 这 一 点 ， 只 要 交互 模式 
是 空间 静态 的 或 时 间 静 态 的 (因此 是 可 预测 的 )， 或 者 准备 执行 的 多 个 任务 在 同一 进程 中 是 可 
用 的 ， 使 得 一 个 任务 在 等 待 交互 完成 时 ， 进 程 就 可 以 执行 另 一 个 任务 。 读 者 应 该 注意 到 ， 如 
果 通 过 增加 并 行 任 务 的 数量 来 提高 交互 重合 ， 就 会 减少 任务 的 粒度 ， 通 常 这 样 也 会 导致 开销 
增加 。 因 此 ， 必 须 审慎 地 使 用 这 种 技术 。 

在 某 些 动态 映射 方案 中 ， 当 某 个 进程 执行 完 任务 后 ， 它 就 发 出 请 求 并 从 其 他 进程 得 到 额 
外 的 任务 。 然 后 它 就 等 待 请 求 被 响应 。 假 如 进程 能 预测 它 将 要 完成 任务 ， 并 预先 启动 任务 传 
递交 互 ， 那 么 该 进程 就 可 以 在 等 待 请 求 被 响应 的 同时 继续 执行 任务 。 根 据 问题 本 身 的 性 质 ， 
估算 剩余 工作 可 能 很 困难 也 可 能 很 容易 。 

在 大 多 数 情况 下 ， 使 计算 与 交互 重 又 需要 从 编程 模式 、 操 作 系 统 以 及 硬件 得 到 支持 。 编 
程 模 式 必 须 提供 允许 交互 与 计算 同时 执行 的 机 制 ， 这 种 机 制 应 该 得 到 底层 硬件 的 支持 。 不 相 
连 的 地 址 空间 模式 与 体系 结构 通常 通过 非 阻塞 消息 传递 的 原 语 提供 这 种 支持 。 这 种 编程 模式 
提供 发 送 和 接收 消息 的 函数 ， 在 发 送 和 接收 完成 前 ， 将 控制 返回 给 用 户 程序 。 这 样 的 话 ， 程 
序 就 可 以 使 用 这 些 原 语 来 启动 交互 ， 然 后 继续 执行 计算 。 假 如 硬件 允许 计算 与 消息 传递 并 发 
执行 ， 那 么 交互 开销 就 可 以 大 大 减少 。 

在 共享 地 址 空间 体系 结构 中 ， 预 取 硬 件 常 有 助 于 计算 与 交互 的 重 又 。 这 种 情况 下 ， 访 问 
共享 数据 只 不 过 是 常规 的 读 取 或 存储 指令 。 预 取 硬 件 能 预测 即将 访问 的 存储 地 址 ， 并 能 在 需 
要 它们 之 前 启动 访问 。 没 有 预 取 硬件 时 ， 如 果 用 编译 器 检测 访问 模式 ， 并 在 使 用 存储 地 址 之 
前 ， 对 某 些 关键 存储 地 址 进行 伪 引 用 ， 也 能 达到 同样 的 效果 。 这 种 方法 的 成 功 程度 取决 于 预 
取 硬 件 可 推油 出 程序 的 可 用 结构 ， 以 及 在 计算 进行 时 预 取 硬件 能 发 挥 作用 的 独立 程度 。 


3.5.4 复制 数据 或 计算 


复制 数据 或 计算 是 可 能 减 小 交互 开销 的 另 一 种 有 用 的 技术 。 

在 一 些 并 行 算法 中 ， 多 个 进程 可 能 需要 以 不 规则 的 模式 频繁 地 以 只 读 方式 访问 共享 数据 
结构 ， 如 散 列表 。 在 每 一 进程 中 复制 共享 数据 结构 的 一 个 副本 ， 使 得 在 复制 阶段 最 初 交互 开 
始 后 ， 所 有 随后 对 该 数据 结构 的 访问 都 没有 任何 交互 开销 ， 除非 额外 存储 需求 被 禁止 ， 否 则 
这 可 能 是 最 好 的 一 种 情况 。 

在 共享 地 址 空间 模式 中 ， 频 繁 被 访问 只 读数 据 的 复制 常常 受到 没有 程序 员 显 式 干预 的 高 
速 缓存 的 影响 。 在 某 些 结构 和 编程 模式 中 ， 只 读 访 问 共 享 数据 比 访问 本 地 数据 的 开销 大 得 多 
或 更 难 表示 ， 显 式 数据 复制 特别 适合 于 这 种 情况 。 因 此 ， 数据 复制 更 利于 消息 传递 编程 模式 ， 
它 能 减少 交互 开销 ， 并 极 大 地 简化 并 行程 序 的 编写 。 

然而 ， 数 据 复制 的 好 处 也 并 非 没 有 成 本 。 数 据 复制 增加 并 行程 序 的 存储 需求 。 用 来 存储 
复制 数据 的 总 存储 量 随 着 并 发 进程 的 数量 线性 增加 。 这 就 可 能 限制 并 行 计算 机 可 以 解决 问题 
的 规模 。 因 此 ， 必 须 有 选择 地 复制 相对 少量 的 数据 。 

除了 输入 数据 以 外 ， 并 行程 序 中 的 多 个 进程 也 常常 共享 中 间 结 果 。 在 某 些 情况 下 ， 一 个 
进程 计算 出 中 间 结 果 要 比 从 其 他 进程 得 到 这 个 中 间 结 果 更 具 成 本 有 效 性 。 此 时 ， 用 复制 计算 
可 用 来 抵消 交互 开销 。 例 如 ， 在 N 点 级 数 中 执行 快速 健 里 时 变换 上 时， 要 计算 N 个 w 的 不 同 次 客 
(或 旋转 因子 ) 并 用 在 各 个 点 中 。 在 并 行 实现 FFT 时 ， 不 同 进程 要 重叠 这 N 个 旋转 因子 各 次 知 
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的 子 集 。 在 消息 传递 模式 中 ， 每 一 进程 最 好 在 本 地 计算 它 需 要 的 所 有 旋转 因子 。 虽 然 并 行 算 
法 可 能 比 串 行 算法 执行 更 多 的 旋转 因子 计算 ， 但 还 是 比 共 享 旋转 因子 快 。 


3.5.5 使 用 最 优 聚合 交互 操作 


如 3.3.2 节 中 的 讨论 ， 并 发 任务 间 的 交互 模式 常常 是 静态 的 和 规则 的 。 这 种 静态 的 和 规则 
的 交互 模式 就 是 指 那些 由 一 一 组 任务 来 执行 ， 并 被 用 于 达到 规则 数据 访问 ， 或 对 分 布 数据 执行 
特定 的 计算 类 型 。 已 经 确定 经 常 出 现在 许多 并 行 算法 中 的 像 聚合 (collective) 交互 操作 这 样 
的 关键 操作 。 对 所 有 进程 广播 数据 或 对 属于 不 同 进程 的 每 一 进程 添加 数据 是 这 种 聚合 操作 的 
例子 。 聚 合 数据 共享 操作 可 划分 为 三 类 。 第 一 类 包含 被 任务 用 来 访问 数据 的 操作 ， 第 二 类 操 
作 被 用 于 执行 一 些 通信 密 集 的 计算 ， 而 最 后 的 第 三 类 被 用 于 同步 。 

已 经 建立 高 度 优化 这 些 聚合 操作 的 实现 ， 用 来 最 小 化 由 于 数据 传送 以 及 争 用 引起 的 开销 。 
第 4 章 将 描述 一 些 实现 常用 的 聚合 交互 操作 的 算法 。 这 些 操作 的 优化 实现 可 从 大 多 数 并 行 计算 
机 供应 商 处 以 库 的 形式 获得 ， 如 MPI (消息 传递 接口 )。 所 以 ， 算 法 设计 者 不 需要 考虑 这 些 操 
作 的 实现 ， 而 只 需 集 中 考虑 从 这 些 操作 中 可 得 到 的 功能 。 然 而 ， 正 如 3.5.6 节 所 述 ， 有 时 交互 
模式 使 得 并 行程 序 员 实现 自己 的 聚合 通信 过 程 更 有 价值 。 


3.5.6 一 些 交 互 与 男 一 些 交互 的 重要 


如 果 底 层 硬件 的 数据 传送 能 力 允 许 ， 那 么 多 对 进程 之 间 的 交互 重 又 将 可 以 减少 有 效 通信 
量 。 让 我 们 看 一 个 重 全 交互 的 例子 ， 在 具有 4 个 进程 Pp。、P;、P, 和 P; 的 消息 传递 模式 中 ， 使 用 
常用 的 一 对 多 广播 诊 合 通信 操作 。 从 Po 广播 数据 到 其 他 进程 的 常用 算法 按 如 下 方式 进行 。 第 
一 步 ，Po 发 送 数 据 到 P,。 第 二 步 ，Po 发 送 数据 到 P1， 同 时 ，P, 发 送 从 Po 接收 到 的 同一 数据 到 P;。 
这 样 整个 操作 在 两 步 内 完成 ， 因 为 第 二 步 中 两 个 任务 的 交互 只 需 一 步 完 成 。 操 作 过 程 如 图 
3-41a 所 示 。 另 一 方面 ， 简 单 的 广播 算法 将 从 Po 发 送 数据 到 P,、P, 和 P;， 因 此 总 共 需 要 三 步 完 
成 ， 如 图 3-41b 所 示 。 
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图 3-41 从 一 个 进程 广播 数据 到 4 个 进程 的 重 叙 交互 过 程 





然而 有 趣 的 是 ， 在 某 些 情况 下 ， 图 3-41b 所 示 的 简单 广播 算法 可 能 更 适合 于 增加 重 营 的 数 
最。 假设 一 个 并 行 算法 需要 先后 广播 4 个 数据 结构 。 如 果 使 用 第 一 个 的 二 步 广 播 算 法 ， 整 个 交 
互 将 需要 8 个 步骤 。 但 使 用 简单 算法 来 完成 这 个 交互 只 需 6 个 步骤 ， 如 图 3-41c 所 示 。 在 第 一 步 ， 
Po 发 送 第 一 个 消息 到 Pl。 第 二 步 ，Po 发 送 第 二 个 消息 到 P11， 同 时 Pl 发 送 第 一 个 消息 到 P,。 第 三 
步 ，Po 发 送 第 三 个 消息 到 Pl，P 发 送 第 二 个 消息 到 P;,， 而 P; 发 送 第 一 个 消息 到 P;。 以 这 种 类 似 
流水 线 的 方式 进行 ，4 个 消息 中 的 最 后 一 个 在 第 4 步 后 从 Po 发 出 ， 并 在 第 6 步 到 达 P;。 对 于 单个 
广播 操作 而 言 ， 这 个 方法 的 开销 很 大 ， 所 以 它 不 大 可 能 被 放 到 聚合 通信 和 库 中 。 然 而 ， 在 这 种 
情况 下 ， 程 序 员 必定 从 算法 的 交互 模式 中 推断 出 ， 自 己 写 聚合 通信 尔 数 要 好 于 使 用 3.5.5 节 讨 
论 的 方法 。 


3.6 并 行 算法 模型 


到 目前 为 止 ， 我 们 已 经 讨论 了 分 解 、 映 射 以 及 最 小 化 交互 开销 的 技术 ， 下 面 将 提出 常用 
的 一 些 并 行 算法 模型 。 一 个 算法 模型 就 是 通过 选择 一 种 分 解 和 映射 技术 并 用 合适 的 策略 最 小 
化 交互 来 构造 并 行 算法 的 一 种 典型 方法 。 


3.6.1 数据 并 行 模型 


数据 并 行 模型 (data-parallel model) 是 最 简单 的 算法 模型 之 一 。 在 这 种 模型 中 ， 任 务 被 
静态 或 半 静 态 地 映射 到 进程 ， 并 且 每 个 任务 都 对 不 同 数据 进行 相似 的 操作 。 这 种 并 行 性 是 把 
同样 的 操作 并 发 地 运用 到 不 同 数据 项 上 产生 的 结果 ， 因 此 称 为 数据 并 行 (data parallelism ) 。 
任务 可 能 分 阶段 执行 ， 并 且 运 行 在 不 同 阶段 上 的 数据 可 能 不 同 。 通 常 ， 数 据 并 行 计 算 阶 段 穿 
插 着 各 个 交互 ， 以 使 各 个 任务 同步 ， 或 找到 新 的 数据 给 各 个 任务 。 由 于 所 有 任务 执行 类 似 的 
计算 ， 分解 问题 到 各 任务 通常 以 数据 划分 为 基础 ， 因 为 均匀 数据 划分 加 上 静态 映射 就 足以 保 
证 负载 平衡 。 

数据 并 行 算法 既 可 以 在 共享 地 址 空间 模式 中 实现 ， 也 可 以 在 消息 传递 模式 中 实现 。 但 是 ， 
消息 传递 模式 中 划分 的 地 址 空间 可 能 允许 更 好 的 位 置 控制 ， 这 样 就 能 为 本 地 性 提供 一 个 更 好 
的 处 理 。 男 一 方面 ， 共 享 地 址 空间 可 以 简化 编程 工作 ， 在 不 同 算法 阶段 有 不 同 数据 分 布 的 情 
况 下 尤其 如 此 。 

选择 在 本 地 保存 分 解 ， 并 且 在 适合 时 将 计算 与 交互 重 倒 和 利用 优化 的 豪 合 交互 例 程 ， 能 
使 数据 并 行 模式 中 的 交互 开销 最 小 化 。 数 据 并 行 问题 的 一 个 重要 特点 ， 就 是 数据 并 发 度 随 着 
问题 规模 的 增加 而 增加 ， 这 样 就 可 以 使 用 更 多 的 进程 来 有 效 地 解决 更 大 的 问题 。 

3.11 市 讲述 的 秽 密 矩阵 相 乘 就 是 数据 并 行 算法 例子 ， 在 图 3-10 中 显示 的 分 解 中 ， 所 有 任 
务 都 相同 ， 而 县 它们 应 用 于 不 同 的 数据 。 


3.6.2 任务 图 模型 


如 3.1 市 所 述 ， 任 何 并 行 算法 中 的 计算 都 可 看 作为 一 个 任务 依赖 图 。 任 务 依赖 图 既 可 以 是 
平凡 的 ， 如 在 矩阵 相 乘 中 ， 也 可 以 是 非 平 凡 的 (习题 3.5)。 但 在 茜 些 并 行 算法 中 ， 任 务 依赖 
图 显 式 地 用 在 映射 中 。 在 任务 图 模型 (task graph model) 中 ， 使 用 任务 之 间 的 相互 关系 来 提 
高 本 地 性 或 减少 交互 开销 。 如 果菜 一 问题 中 ， 与 任务 对 应 的 数据 量 远 大 于 与 任务 相对 应 的 计 
算 ， 则 通常 用 任务 图 模型 来 解决 这 类 问题 。 任 务 的 静态 映射 常 被 用 来 减少 任务 间 的 数据 传送 
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开销 ， 有 时 也 可 能 用 分 布 式 动态 映射 ， 但 即便 如 此 ， 动 态 映 射 也 使 用 与 任务 依赖 图 结构 以 及 
任务 交互 模式 的 信息 来 减少 交互 开销 。 在 具有 全 局 可 访问 空间 的 模式 中 ， 任 务 更 容易 被 共享 ， 
但 在 不 相连 的 地 址 空间 中 ， 也 可 以 使 用 其 他 一 些 机 制 来 共享 任务 。 

典型 的 适用 于 这 种 模型 的 交互 减少 技术 包括 : 在 映射 以 任务 的 交互 模式 为 基础 的 任务 时 ， 
通过 提高 本 地 性 来 减少 交互 量 和 交互 频率 ， 以 及 使 用 异步 交互 方法 让 交互 与 计算 重 又 。 

以 任务 图 模型 为 基 侧 的 算法 的 例子 包括 快速 并 行 排序 (9.4.1 节 )、 稀 疏 矩阵 分 解 以 及 从 分 
治 分 解 中 导出 的 许多 并 行 算法 。 这 种 在 任务 依赖 图 中 通过 独立 任务 自然 表示 的 并 行 形式 称 为 
任务 并 行 (task parallelism ) 。 


3.6.3 工作 池 模 型 


工作 池 (work pool) 或 任务 池 (task pool) 模型 的 特征 是 ， 动 态 映 射 任 务 到 进程 以 保持 
负载 平衡 ， 在 这 种 映射 中 ， 任 何 任务 可 能 由 任何 进程 执行 。 没 有 必要 预 映 射 任务 到 进程 。 映 
射 既 可 以 是 集中 式 的 也 可 以 是 分 布 式 的 。 指 向 任务 的 指针 可 以 保存 在 物理 共享 列表 、 优 先 队 
刘 、 散 列表 或 树 中 ， 或 存储 在 物理 分 布 的 数据 结构 中 。 工 作 既 可 以 在 开始 时 静态 地 获得 ， 也 
可 以 动态 地 产生 ; 也 就 是 说 ， 进 程 可 以 产生 工作 并 把 它 添加 到 全 局 (也 可 能 是 分 布 式 ) 工作 
池 中 。 如 果 工 作 是 动态 产生 的 ， 并 且 使 用 分 散 映射 方法 ， 那 么 所 有 进程 就 要 使 用 终止 检测 算 
法 (11.4.4 节 )， 使 所 有 进程 能 实际 检测 整个 程序 是 否 已 经 执行 了 完 〈 即 穷尽 所 有 可 能 的 任务 )， 
并 停止 寻找 更 多 工作 。 

在 消息 传递 模式 中 ， 当 与 任务 相关 的 数据 量 运 小 于 与 任务 相关 的 计算 量 时 ， 通 党 就 全 用 
工作 池 模 型 。 这 种 情况 下 ,任务 容易 地 移动 而 不 会 引起 很 大 的 数据 交互 开销 。 任 务 的 粒度 可 
以 调整 ， 以 求 在 负载 不 平衡 与 访问 工作 袍 的 开销 之 间 取 得 所 要 求 的 折 中 而 添加 和 减少 任务 。 

块 再 度 〈3.4.2 节 ) 的 循环 并 行 化 或 相关 方法 就 是 使 用 工作 池 模 型 的 例子 ， 在 任务 可 静态 
获得 的 时 候 ， 这 种 工作 好 采用 集中 式 映 射 。 任 务 由 集中 式 或 分 布 式 数据 结构 表示 的 并 行 树 搜 
索 ， 则 是 任务 动态 产生 的 情况 下 使 用 工作 池 模 型 的 例子 。 


3.6.4 主 -从 模型 


在 主 - 从 〈master-slave) 模型 或 管理 者 -工作 者 (manager-worker) 模型 中 ， 一 个 或 多 个 
主 进程 产生 任务 并 分 派 给 工作 者 进程 。 如 果 管 理 者 能 估计 任务 的 大 小 ， 或 者 一 种 随机 映射 能 
完成 负载 平衡 的 工作 ， 任 务 就 可 以 预先 分 配 。 在 另 一 种 情况 下 ， 工 作者 在 不 同时 间 被 分 派 更 
小 的 任务 。 如 果 主 进程 产生 任务 很 费时 间 ， 不 希望 所 有 工作 者 一 直 等 待 主 进程 生产 出 所 有 任 
务 块 ， 则 后 一 种 方案 更 适合 。 有 些 情况 下 ,任务 必须 分 阶段 执行 ， 而 且 每 一 阶段 的 任务 必须 
化 后 面 的 任务 产生 前 完成 。 这 种 情况 下 ， 管 理 者 会 在 每 一 阶段 后 使 所 有 工作 者 同步 。 通 常 ， 
并 没有 人 们 想 要 的 从 任务 到 进程 的 预 映射 ， 使 得 任 一 工作 者 能 执行 任意 分 派 给 它 的 任务 。 管 
理 者 -工作 者 模型 能 够 推广 到 层次 或 多 级 管理 者 -工作 者 模型 ， 在 这 种 模型 中 ， 顶 级 管理 者 分 
派 大 任务 块 给 二 级 管理 者 ， 二 级 管理 者 再 细 分 任务 给 它 自己 的 工作 者 ， 而 它们 自己 也 可 以 执 
行 部 分 任务 。 这 种 模型 同样 适用 于 共享 地 址 空间 模式 或 消息 传递 模式 ， 因 为 交互 自然 是 双向 
的 ; 即 管理 者 知道 它 要 分 发 任务 ， 而 工作 者 知道 它们 要 从 管理 者 那 接收 任务 。 

企 使 用 主 -从 模型 时 ,一 定 要 确保 主 进程 不 成 为 瓶颈 ,但 当 任务 太 小 (或 工作 者 相对 太 快 ) 
时 会 发 生 这 种 情况 。 选 择 任 务 粒 度 时 ， 要 确保 执行 任务 的 成 本 对 传送 任务 的 成 本 和 同步 的 成 
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本 占有 优势 。 异 步 交 互 有 助 于 与 由 主 进程 产生 任务 相关 的 交互 与 计算 的 重 登 。 如 采 工 作者 的 
请 求 性 质 是 非 确定 性 的 ， 那 么 异步 交互 也 可 以 减少 等 待 时 间 。 


3.6.5 流水 线 模型 或 生产 者 -消费 者 模型 


在 流水 线 模型 (pipeline model) 中 ， 数 据 流通 过 一 串 进 程 传递 ， 每 一 进程 执行 一 个 任务 。 
在 一 个 数据 流 中 ， 同 时 执行 不 同 程序 称 为 流 并 行 (stream parallelism )。 除 了 发 起 流水 线 的 进 
程 外 ， 新 数据 的 到 达 触 发 了 流水 线 中 的 一 个 进程 执行 一 个 新 任务 。 这 些 进程 可 能 形成 各 种 形 
状 的 流水 线 ， 如 线性 或 多 维 数组 、 树 或 一 般 的 有 较 或 无 圈 图 。 流 水 线 是 生产 者 和 消费 者 链 。 
流水 线 中 的 每 一 个 进程 都 可 看 成 它 前 面 进程 数据 序列 的 消费 者 和 它 后 面 进程 数据 的 生产 者 。 
流水 线 并 不 一 定 是 线性 链 ; 它 也 可 以 是 一 个 有 向 图 。 流 水 线 模型 通常 包含 从 任务 到 进程 的 静 
态 映 射 。 

负载 平衡 是 任务 粒度 的 函数 。 粒 度 越 大 ， 填 满 流 水 线 花 费时 间 就 越 长 ， 就 是 说 ， 如 果 链 
中 第 一 个 进程 产生 的 触发 者 要 传播 到 最 后 一 个 进程 ， 则 有 些 进程 必须 等 待 。 但 是 ， 粒 度 太 小 
也 会 增加 交互 开销 ， 因 为 进程 在 小 块 计算 后 ， 必 须 交 互 才能 接收 新 的 数据 。 适 合 于 这 种 模型 
的 最 常用 技术 是 重 登 交互 与 计算 。 

并 行 LU 分 解 算法 是 使 用 二 维 流 水 线 的 例子 ， 在 8.3.1 节 详细 讨论 。 


3.6.6 混合 模型 


有 时 候 ， 可 以 用 多 个 模型 解决 一 个 问题 ， 这 就 得 到 混合 算法 模型 。 混 合 模型 既 可 由 多 级 
应 用 的 多 个 模型 组 成 ， 也 可 由 在 一 个 并 行 算法 的 不 同 阶段 串 行 应 用 的 多 个 模型 组 成 。 在 某 些 
情况 下 ， 算 法 公式 可 能 具有 多 个 算法 模型 的 特点 。 例 如 ， 数 据 可 能 按 任务 依赖 图 描述 的 模式 
以 流水 线形 式 流 动 。 在 另 一 些 情况 下 ， 主 计算 可 能 由 一 个 任务 依赖 图 来 描述 ， 但 图 中 每 一 个 
点 可 能 表示 一 个 包含 多 个 子 任务 的 超 任 务 ， 适 用 于 数据 并 行 或 流水 线 并 行 。 并 行 快速 排序 
(3.2.5 节 和 9.4.1 节 ) 是 混合 模型 非常 好 的 应 用 。 


3.7 书目 评注 


有 很 多 教科 书 ， 如 Wilson[Wil95$]，Akl[Akl197] ， Hwang 和 Xu[HX98] ，Wilkinson 和 
Allen[WA99]，Culler 和 Singh[CSG98] 等 ， 提 供 相 似 的 或 略 有 不 同 的 并 行程 序 编 程 模型 ， 以 及 
开发 并 行 算法 的 步骤 。Goedecker 和 Hoisie 编 写 的 书 [GHO1] 是 少数 几 本 关于 高 性 能 并 行程 序 编 
程 的 实用 教科 书 之 一 。Kwok 和 Ahmad[KA99a，KA99b] 对 映射 任务 到 进程 的 技术 作 了 完整 的 
本 章 作为 例子 的 大 部 分 算法 在 本 书 其 他 专门 讨论 相关 问题 的 章 中 有 详尽 描述 。 读 者 可 以 
参考 那些 章 的 书目 评注 进一步 了 解 这 些 算法 。 


习题 


3.1 在 例 3.2 中 ， 每 个 并 集 与 交集 运算 的 执行 时 间 与 两 个 输入 表 中 的 总 记录 数 成 比例 。 据 
此 构造 与 图 3-2 和 3-3 对 应 的 负载 任务 依赖 图 ， 图 中 每 一 节点 的 权 值 等 于 相应 任务 所 需 的 工作 
量 。 每 … 图 中 的 平均 并 发 度 是 多 少 ? 

3.2 对 于 图 3-42 显 示 的 任务 图 ， 确 定 下 面 的 值 : 


Je 
[De 
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1 ) 最 大 并 发 度 。 

2) 关键 路 径 长 度 。 

3) 假设 进程 数量 不 受 限制 ， 那 么 相对 一 个 进程 可 获得 的 最 大 加 速 比 是 多 少 ? 

4) 要 得 到 最 大 可 能 的 加 速 比 ， 人 

5 ) 假如 进程 数 的 限制 分 别 为 a) ) 8， 那 么 最 大 可 能 得 到 的 加 速 比 是 多 少 ? 


人 


7 


c) d) 
图 3-42 习题 3.2 中 的 任务 依赖 图 


3.3 ”在 图 3-10 和 3-11 中 ， 与 矩阵 相 乘 分 解 对 应 的 任务 依赖 图 的 平均 并 发 度 和 关键 路 径 长 
度 是 多 少 ? 

3.4 设 d 为 任务 依赖 图 的 最 大 并 发 度 ， 图 中 有 ! 个 任务 ， 关 键 路 径 长 度 为 [。 证 明 
fos dl+tl, 

3.5 ”考虑 算法 3-3 中 所 示 的 稠密 矩阵 的 LU 分 解 。 图 3-27 显 示 LU 分 解 为 14 个 任务 的 情况 ， 
它 基于 矩阵 4 划分 为 9 个 块 h4u，(1《 i,j < 3) 的 二 维 划分 。 作 为 因 式 分 解 的 结果 ，A 的 块 变 为 
对 应 的 L 块 和 7 块 。Z 的 对 角 线 块 是 对 角 线 元 素 为 1 的 下 三 角子 矩阵 ， 而 的 对 角 线 元 素 是 上 三 
角子 矩阵 。 任务 1 使 用 算法 3-3 分 解 子 矩阵 41.1。 任务 2 和 3 实现 算法 3-3 中 第 4 到 6 行 循环 的 块 版 本 。 
任务 4 和 5 对 应 任务 2 和 3 的 上 三 角 部 分 。 算 法 3-3 中 LU 分 解 的 元 素 版 本 不 显示 这 些 步 只 ， 因 为 L 
的 对 角 线 元 素 是 1; 但 是 ， 块 版 本 必须 计算 U 的 一 个 行 块 ， 作 为 4 的 块 行 与 对 应 对 角 线 块 L 的 逆 
的 乘积 。 任 务 6 ~ 9 实现 算法 3-3 中 第 7 ~ 11 行 循环 的 块 版 本 。 这 样 ， 任 务 1 ~ 9 对 应 算法 3-3 中 的 
最 外 层 循环 的 第 一 个 迭代 的 块 版 本 。 剩 余 的 任务 完成 4 的 因 式 分 解 。 试 画 出 与 图 3-27 所 示 的 分 
解 对 应 的 任务 依赖 图 。 

3.6 列举 图 3-27 中 显示 的 LU 分 解 的 关键 路 径 。 





3.7 ”指出 图 3-27 所 示 分 解 的 任务 依赖 图 对 3 个 进程 的 一 个 有 效 映射 。 非 形式 地 证 明 你 的 映 
射 是 最 可 能 的 映射 。 

3.8 ”对 图 3-27 所 示 分 解 的 任务 依赖 图 ， 描 述 并 绘制 一 个 有 效 的 到 4 个 进程 的 映射 。 并 证 明 
它 是 对 4 个 进程 最 可 能 的 映射 。 

3.9 ”假设 每 一 任务 花费 一 个 时 间 单 元 “， 那 么 两 种 映射 一 一 对 3 个 进程 的 映射 或 对 4 个 进 
程 的 映射 一 一 哪个 解决 问题 更 快 ? 

3.10 让 明 在 图 3-27 中 ， 块 大 小 为 2 的 块 步 又 1 到 块 步骤 14 ( 即 每 一 个 4;; ，L;; 和 U; 是 子 
垂 阵 2 xb) 在 数学 上 等 价 于 在 n x n 和 矩阵 A4 中 用 算法 3-3， 其 中 n= 二 34。。 

提示 : 可 对 b 使 用 归纳 法 。 

3.11 图 3-27 显 示 年 阵 分 解 为 14 个 任务 的 LU 因 式 分 解 ， 用 3 x 3 二 维 划分 将 矩阵 分 割 成 块 。 
假如 使 用 m x m 划 分 ， 在 沿 相 似 行 的 分 解 中 ， 导 出 任务 数 1 (m) 对 m 的 函数 表达 式 。 

提示 : 证 明 t (m) = t(m-1)+ m2。 

3.12 对 于 习题 3.11， 导 出 最 大 并 发 度 d (m) 对 m 的 函数 表达 式 。 

3.13 对 于 习题 3.11 ， 导 出 关键 路 径 长 度 ! (m) 对 m 的 函数 表达 式 。 

3.14 对 于 图 3-2 和 3-3 显 示 的 数据 库 查 询问 题 ， 请 给 出 一 个 有 效 的 分 解 映 射 。 在 每 一 种 情 
兄 下 ， 要 使 用 的 最 大 进程 数 是 多 少 ? 

3.15 在 算法 3-4 给 出 的 算法 中 ， 假 设 分 解 使 第 7 行 的 每 次 执行 都 是 一 个 任务 。 画 出 任务 依 
球 图 和 任务 交互 图 。 

算法 3-4 ”上 串 行 问题 的 并 行 化 实例 


1 procedure FFT like_pattern(A, n) 

2. begin 

3 m := ]0g2 n; 

4 for j :=0tom—1l1do 

5. k := 27, 

6 fori :=0ton—1do 

7 A[i] := A[i] + A[i XOR 27]; 
8 endfor | 

9. end FFT.like-pattern 





3.16 算法 3-4 中 ， 假 如 2 = 16， 对 于 16 个 进程 设计 一 个 好 的 映射 。 

3.17 算法 3-4 中 ,假如 n = 16， 对 于 8 个 进程 设计 一 个 好 的 映射 。 

3.18 ”假如 算法 3-4 中 第 3 行 语句 变 成 m = (logsn)-1， 重 做 习题 3.15，3.16 和 3.17。 

3.19 考虑 一 种 简化 的 桶 -排序 。 给 定 一 个 数组 4 作为 输入 ， 它 包含 个 随机 的 整数 ， 范 围 
在 [1.… 门 之 间 。 输 出 数据 由 r 个 桶 组 成 ， 使 得 在 算法 的 最 后 ， 桶 ;包含 4 中 所 有 等 于 ;的 元 素 的 下 

" 描述 以 划分 输入 数据 ( 即 数 组 4 ) 为 基础 的 一 种 分 解 , 以 及 到 p 个 进程 的 一 个 相应 的 映射 。 

简要 说 明 所 得 的 并 行 算法 如 何 工作 。 

“ 持 述 以 划分 输出 数据 ( 即 r 个 桶 的 集合 ) 为 基础 的 一 种 分 解 ， 以 及 到 p 个 进程 的 一 个 相应 

的 映射 。 简 要 说 明 所 得 的 并 行 算法 如 何 工 作 。 


昌 事实 上 上 ， 对 丁 块 大 小 >>1， 任 务 1，10 和 14 需 要 大 约 2/35; 个 算术 运算 : 任务 2，3，4,，5， 贡 和 12 需 要 大 约 b3 
个 运算 ; 任务 6，7，8，9 和 13 需 要 大 约 253 个 运算 。 


CA 
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3.20 ”在 习题 3.19 中 ， 哪 一 种 分 解 能 得 到 更 好 的 并 行 算法 ? n 和 r 的 相对 值 对 选用 两 种 分 解 
方案 中 的 哪 一 种 有 影响 ? 

3.21 ”如 果 7 个 任务 的 运行 时 间 分 别 为 1，2，3，4，5，5 和 10 个 时 间 单 元 。 假 如 分 派 工 作 , 
到 进程 不 花 时 间 ， 对 于 两 个 进程 动态 映射 的 集中 式 方案 ,分 别 计算 最 好 和 最 差 的 加 速 比 。 z 

3.22 假设 采用 集中 式 动态 负载 平衡 方案 对 M 个 任务 进行 映射 ,关于 这 些 任 务 有 如 下 的 信 
县 : 

。 平 均 任 务 大 小 为 1， 

。 最 小 任务 大 小 为 0。 

。 最 大 任务 大 小 为 m。 

。 进 程 拾取 一 个 任务 要 花 A 时 间 。 

假设 可 以 获得 ! (1 < m) 批 成 批 任务 ， 计算 自 调度 和 块 调度 方法 的 最 好 和 最 差 的 加 速 比 。 当 
p=10，A=0.2，m = 20，M = 100 和 /= 2 时 ， 这 两 种 调度 方法 实际 的 最 好 和 最 差 的 加 速 比 是 多 


少 ? 
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在 多 数 并 行 算 法 中 ， 进 程 间 需 要 交换 数据 。 这 些 数 据 的 交换 常常 对 并 行程 序 的 效率 产生 
重大 影响 ， 因 为 这 些 交 换 会 在 程序 的 执行 过 程 中 引起 交互 延迟 。 例 如 ， 回 忆 2.5 节 ， 在 采用 直 
通路 由 选择 的 互连网 络 中 ， 运 行 在 两 个 不 同 节 点 的 两 个 进程 间 进 行 一 次 m 字 消息 的 简单 交换 所 
需 的 时 间 大 约 为 1; + mt。。 其 中 i, 是 数据 传送 的 延迟 或 启动 时 间 ，t, 是 每 字 传 送 时 间 ， 它 与 节 
点 间 的 可 用 网 络 带 宽 成 反比 。 在 许多 定义 得 完善 的 模式 里 ， 实 际 并 行程 序 中 的 交互 包含 的 进 
程 数 远 远 不 止 两 个 。 通 常 ， 要 么 所 有 进程 都 参与 一 个 全 局 的 交互 操作 ， 要 么 进程 的 一 些 子 集 
参与 各 自 子 集 的 本 地 交互 操作 。 这 些 常见 的 进程 间 的 基本 交互 或 通信 模式 常常 作为 构件 用 于 
各 种 并 行 算 法 中 。 在 各 种 并 行 体系 结构 中 ， 正 确实 现 这 些 基本 通信 操作 是 有 效 利用 并 行 算法 
的 关键 。 

我 们 在 这 一 章 中 介绍 一 些 算法 ， 这 些 算法 实现 简单 互连网 络 中 常用 的 通信 模式 ， 例 如 线 
性 阵列 、 二 维 格 网 和 超 立 方 体 。 选 择 这 些 互连网 络 的 目的 是 为 了 教学 。 璧 如 说 ， 尽 管 大 规模 
的 并 行 计算 机 不 大 可 能 基于 线性 阵 询 或 环形 拓扑 结构 ， 但 是 理解 线性 阵列 下 的 各 种 通信 操作 
是 非常 重要 的 ， 因 为 格 网 的 行 和 列 就 是 线性 阵列 。 对 网 状 拓扑 按 行 展开 或 者 按 列 展开 的 并 行 
算法 就 是 应 用 线性 阵列 的 算法 。 在 格 网 中 使 用 通信 操作 的 算法 只 不 过 是 相应 的 线性 阵列 算法 
在 二 维 上 的 简单 推广 。 而 且 ， 使 用 如 像 数组 这 样 的 规则 数据 结构 的 并 行 算 法 常常 可 以 自然 地 
映射 到 一 维 或 者 二 维 进程 的 数组 。 这 也 使 得 在 线性 阵列 或 格 网 互 连 的 网 络 中 ， 研 究 进程 间 的 
交互 更 加 重要 。 另 一 方面 ， 超 立方 体 体系 结构 是 很 有 意义 的 ， 因 为 许多 使 用 递归 交互 模式 的 
算法 可 以 自然 地 映射 到 超 立 方 体 拓扑 结构 。 这 些 算 法 的 大 部 分 可 以 很 好 的 运行 在 非 超 立方 体 
结构 的 网 络 中 ， 但 在 超 立 方 体 上 实现 这 种 通信 模式 会 更 简单 。 

实际 上 ， 虽 然 多 数 的 现代 并 行 计 算 机 不 可 能 和 本 章 叙 述 的 任 一 互连网 络 完全 匹配 ， 但 本 
章 讲述 的 简单 网 络 结构 中 的 算法 对 现代 并 行 计算 机 是 实际 的 和 高 度 适用 的 。 这 是 因为 在 现在 
的 并 行 计算 机 中 ， 在 两 个 节点 之 间 传 送 一 定 大 小 的 数据 所 需 时 间 通 常 与 节点 在 网 络 中 的 相对 
位 置 无 关 。 这 种 同 质 性 是 由 各 种 固件 特性 和 硬件 特性 决定 的 ， 如 随机 路 由 选择 算法 和 直通 路 
由 选择 算法 等 。 而 且 ， 终 端 用 户 通常 不 能 显 式 控制 进程 到 处 理 器 之 间 的 映射 。 因 此 ， 我 们 假 
定 在 互连网 络 中 ， 任 意 一 对 节点 间 传 送 mm 字 的 数据 引起 * + mt 的 时 间 开 销 。 在 大 多 数 体系 结 
构 中 ,只 要 数据 传送 的 源 节点 和 目标 节点 间 有 一 条 可 用 的 通信 链 路 , 这 一 假定 是 相当 准确 的 。 
然而 ， 当 有 多 对 节点 同时 通信 时 ， 这 些 消 息 的 传送 将 会 占用 更 长 的 时 间 。 如 果 通 过 网 络 截 面 
的 消息 传递 数量 超过 网 络 截面 的 带宽 (参看 2.4.4 节 )， 就 会 产生 这 种 消息 延迟 。 在 这 种 情况 
下 ， 我 们 需要 调整 的 值 来 反映 由 网 络 拥塞 带 来 的 延迟 。 如 2.5.1 节 中 所 述 ， 我 们 把 调整 以 后 
的 m 作为 一 个 有 效 的 t, 。 当 遇 到 在 某 些 网 络 中 引起 拥塞 的 通信 操作 时 我 们 将 在 书 中 作出 说 
明 。 

如 2.5.2 节 中 所 述 ， 在 共享 地 址 空间 模式 的 各 个 处 理 器 间 ， 数 据 共享 的 开销 可 以 用 一 个 相 
同 的 表达 式 + mt 表示 ， 通 常 对 于 并 行 计 算 机 的 不 同 处 理 器 和 不 同 的 计算 速度 ，# 和 +。 有 不 
同 的 值 。 因 此 ， 在 这 一 章 的 讨论 中 ， 可 以 假定 需要 一 个 或 者 多 个 交互 模式 的 并 行 算法 的 成 本 
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和 消 且 传递 模式 中 导出 的 成 本 表达 式 接近 。 

在 下 面 的 几 节 中 ， 我 们 将 介绍 各 种 通信 操作 ， 并 推导 相应 时 间 复 杂 度 的 表达 式 。 我 们 假 
定 互 连 网 络 支持 直通 路 由 选择 (2.5.1 闻 )， 并 且 ， 任 何 -对 节点 间 的 通信 时 间 与 它们 之 间 的 通 
言 路 径 上 的 中 间 克 点 数 无 关 。 同 时 ， 我 们 若 假定 通信 链 路 是 双向 的 ; 也 就 是 说 ， 两 个 直接 相 
连 的 广 扣 可 以 在 t; + mt 时 间 内 同时 相互 发 送 m 字 的 消息 。 我 们 假定 采用 单 端口 通信 模式 ， 其 
中 一 个 厄 点 一 次 只 能 在 它 的 一 条 链 路 上 发 送 消 息 。 同 样 ， 一 个 节点 一 次 只 能 在 一 条 链 路 上 接 
收 消息 。 但 是 、 一 个 节操 同时 在 同一 条 链 路 或 另 一 条 链 路 发 送 消 息 时 可 以 接收 消息 。 

这 里 描述 的 许多 操作 都 有 对 偶 性 和 其 他 的 相关 操作 ， 这 些 操作 可 以 通过 使 用 与 原来 操作 
非常 类 似 的 过 程 来 实现 。 通 信和 操作 的 对 偶 是 原始 操作 的 逆 操 作 ， 可 以 通过 逆转 原来 操作 中 的 
通信 方向 和 消息 序列 来 完成 。 我 们 将 在 下 面 可 能 应 用 的 地 方 讨论 这 些 操 作 。 


4.1 一 对 多 广播 以 及 多 对 一 归 约 


并 行 算法 常常 需要 一 个 进程 发 送 相同 的 数据 给 其 他 所 有 的 进程 或 其 他 所 有 进程 的 子 集 。 
这 种 操作 称 为 一 对 多 广播 (one-to-all broadcast)。 开 始 时 ， 只 有 源 进 程 具 有 需要 广播 的 m 字 的 
数据 。 广播 结 束 时 ， 就 会 有 P 个 原始 数据 的 副本 一 一 每 个 进程 一 个 。 一 对 多 广播 的 对 偶 是 多 对 
一 归 约 (all-to-one reduction)。 在 多 对 一 归 约 操作 中 ，p 个 参与 进程 的 每 一 个 都 有 一 个 缓冲 区 
M， 它 包含 m 个 字 。 来 自 所 有 进程 的 数据 通过 一 个 相关 的 操作 符 组 合 起 来 ， 并 被 累加 到 一 个 目 
标 进程 中 一 个 m 字 的 缓冲 区 中 。 归 约 操作 可 以 用 来 求 一 些 数字 集 的 和 、 乘 积 、 最 大 值 和 最 小 
值 一 一 累加 结果 MM 中 的 第 个 字 是 每 个 原 缓冲 区 中 第 ;个 字 的 和 、 乘积 、 最 大 值 和 最 小 值 。 图 4-1 
显示 P 个 进程 之 间 的 一 对 多 广播 和 多 对 一 归 约 操作 。 


一 对 多 广播 

M > M M M | 

VY VY. 多 对 一 归 约 9 COREE 
: 


图 4-1 一 对 多 广播 和 多 对 一 归 约 


一 对 多 广播 和 多 对 一 归 约 操作 被 用 于 几 种 重要 的 并 行 算法 中 ， 包 括 矩 阵 - 向 量 乘 法 、 高 其 
消去 法 、 最 短路 径 以 及 向 量 内 积 。 在 下 面 几 小 节 中 ， 我 们 将 讨论 在 多 种 互连网 络 拓扑 中 实现 
一 对 多 广播 。 


4.1.1 环 或 线性 阵列 


连续 地 从 源 进 程 向 其 他 p-1 个 进程 发 送 p-1 个 销 息 是 一 种 比较 简单 的 实现 一 对 多 广播 的 方 
法 。 但 是 ， 由 于 源 进 程 成 为 瓶颈 ， 这 种 方法 的 效率 不 高 。 而 且 ， 因 为 每 次 只 有 源 节点 和 一 个 
目标 节点 连接 ， 通 信 网 络 的 利用 率 非 常 低 。 利 用 一 种 称 为 递归 加 倍 (recursive doubling ) 的 技 
术 ， 可 以 设计 一 个 比较 好 的 广播 算法 。 递 归 加 倍 的 源 进 程 首先 发 送 消息 给 另外 一 个 进程 。 然 
后 ， 这 两 个 进程 可 以 同时 发 送 消息 给 还 在 等 待 消息 的 其 他 两 个 进程 。 继 续 这 一 过 程 ， 直 到 所 
有 进程 都 收 到 了 数据 ， 这 样 消息 可 以 在 log p 步 广播 完毕 。 

图 4-2 显 示 在 一 个 8 节点 的 线性 阵列 或 环 中 ， 一 对 多 广播 的 步 节点 的 标号 从 0 至 7。 每 
个 消息 传送 步骤 也 用 一 个 编号 的 虚线 箭头 表示 ， 箭 头 从 消息 的 源 节点 指向 目标 节点 。 表 示 同 
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一 时 间 发 送 消 息 的 箭头 有 同样 的 标号 。 





图 4-2 8 布点 环 上 的 一 对 多 广播 。 节 点 0 是 广播 中 的 源 节 点 。 每 个 
消息 传送 步骤 用 一 个 编号 的 从 源 节 点 到 目标 节点 的 虚线 箭头 
表示 。 箭 头 上 的 数字 表示 消息 发 送 的 时 间 步 又 


要 注意 的 是 ， 在 一 个 线性 阵列 中 ， 每 一 步 都 要 仔细 地 选择 消息 将 要 发 送 到 的 目标 节点 。 
在 图 4-2 中 ， 消 息 首 先 从 源 节 点 0 发 送 到 最 远 的 节点 4。 第 二 步 中 ， 发 送 和 接收 节点 间 的 距离 减 
半 ， 依 此 类 推 . 在 每 一 步 中 都 采用 这 种 方式 来 选择 消息 的 接收 者 ， 以 避免 网 络 的 拥塞 。 例 如 ， 
如 当 在 第 一 步 从 节点 0 把 消息 发 送 给 节点 1， 然 后 在 第 二 步 节点 0 和 节点 1 试图 分 别 发 送 消息 给 
节 氮 2 和 节点 3， 那 么 节点 1 和 节点 2 间 的 通信 链 路 将 会 出 现 拥塞 ， 因 为 这 条 通信 链 路 是 第 二 步 
中 两 条 消息 要 通过 的 最 短路 径 的 一 部 分 。 

如 图 4-3 所 示 ， 线 性 阵列 中 的 归 约 操作 可 以 通过 简单 地 反 转 广播 操作 的 发 送 方向 和 消息 序 
列 的 顺序 实现 。 第 一 步 每 个 奇数 号 节点 把 它们 缓冲 区 中 的 数据 发 送 到 前 面 一 个 偶数 号 的 节点 ， 
并 在 偶数 号 节点 中 把 缓冲 区 中 数据 合并 成 一 个 。 当 第 一 步 完成 后 ， 只 有 节点 0，2，4，6 的 4 
个 缓冲 区 的 数据 需要 归 约 。 第 二 步 把 节点 0 和 2 的 数据 累加 到 节点 0， 而 节点 6 和 4 的 数据 累加 
到 证 后 4。 最 后 ， 节 点 4 把 它 的 缓冲 区 中 的 数据 发 送 到 节点 0， 在 节点 0 中 计算 最 终 的 归 约 结 
果 。 





图 4-3 在 8 布点 环 上 的 归 约 操作 ， 节 点 0 是 归 约 的 目标 节点 
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例 4.1 第 阵 - 癌 量 的 乘法 


荔 虑 一 个 nx nm 撼 阵 4 和 一 个 ax 1 向 量 * 的 相 乘 问题 ， 计 算 在 一 个 nx a 的 节点 格 网 中 进行 ， 
产生 一 个 nx 1 结果 向 量 y。 算 法 8-1 显 示 求解 这 一 问题 的 一 系列 算法 。 图 4-4 显 示 和 矩阵 和 向 量 的 
一 个 可 能 的 映射 ， 其 中 矩阵 的 每 个 元 素 属 于 不 同 的 进程 ， 而 且 向 量 分 布 在 格 网 最 顶端 的 行 中 ， 
结果 向 量 由 进程 最 左边 的 列 产生 。 

由 于 和 矩阵 的 所 有 行 必 须 和 向 量 相 乘 ， 每 个 进程 都 需要 驻 留 在 其 列 中 最 顶层 进程 的 向 量 的 
元 素 。 因 此 ， 在 计算 矩阵 -向 量 的 乘积 之 前 ， 节 点 中 的 每 一 列 执行 向 量 元 素 的 一 对 多 广播 ， 以 
列 中 最 上 面 的 进程 作为 广播 源 。 在 进行 这 一 操作 时 ， 我 们 可 以 把 该 n x n 格 网 的 每 一 列 看 成 一 
个 n 个 节点 的 线性 阵列 ， 并 对 前 面 讨论 的 所 有 列 同时 应 用 线性 阵列 广播 过 程 。 

在 广播 结束 以 后 ， 每 个 进程 把 它 的 矩阵 元 素 和 广播 的 结果 相 乘 。 此 时 ， 每 一 行进 程 需要 
把 它 的 结果 相 加 产生 乘积 向 量 的 相应 元 素 。 这 一 过 程 需要 对 进程 格 网 的 每 一 行 执行 多 对 一 归 
约 并 把 每 一 行 的 第 一 个 进程 作为 归 约 操作 的 目标 来 完成 。 

例如 ，Ps 从 P1 接 收 x[1] 作 为 广播 的 结果 ， 再 把 x[1] 和 A4[2, 1] 相 乘 ， 并 参与 和 Ps、Po 及 已 的 

5 多 对 一 归 约 ， 并 在 Ps 累积 y[2]。 : 


。 多 对 一 归 约 输入 问 量 
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输出 向 量 
图 4-4 在 一 个 4x 4 矩阵 和 4 x 1 向 量 的 乘法 中 的 一 对 多 广播 和 多 对 一 归 约 


4.1.2 格 网 


我 们 可 以 把 一 个 具有 P 个 节点 的 方形 格 网 的 行 或 者 列 看 作 一 个 有 WP 个 节点 的 线性 阵列 。 
这 样 ， 格 网 中 的 许多 通信 算法 仅仅 是 一 些 线性 阵列 通信 算法 的 简单 推广 。 一 个 线性 阵列 的 通 
信 操 作 可 以 在 一 个 格 网 中 分 两 个 阶段 来 执行 。 第 一 阶段 ， 可 以 将 格 网 中 的 行 看 作 是 线性 阵列 ， 
将 操作 沿 着 一 行 或 所 有 行进 行 。 第 二 阶段 ， 再 对 列 进行 同样 的 操作 。 

考虑 在 有 VP 行 和 Vp 列 的 二 维 方形 格 网 中 进行 的 一 对 多 广播 。 首先， 在 每 一 行 中 执行 
对 多 广播 ， 从 源 点 广播 到 同一 行 的 余下 的 Vp -1 个 节点 。 一 旦 格 网 中 的 一 行 的 所 有 的 节点 都 





已 经 收 到 了 数据 ， 它 们 就 在 各 目的 列 上 局 动 一 对 多 广播 。 当 第 二 阶段 结束 时 ， 格 网 中 的 每 一 
个 六 点 都 会 具有 初始 消息 的 一 个 副本 。 在 格 网 中 进行 一 对 多 广播 的 通信 步骤 显示 在 图 4-$ 中 ， 
其 中 p= 二 16， 源 节点 为 左下 角 的 字 点 0。 步 又 1 和 步骤 2 对 应 于 第 一 阶段 ， 步 骤 3 和 步骤 4 对 应 于 
第 一 阶段 。 

三 维 格 网 中 的 一 对 多 广播 也 是 一 个 相似 的 过 程 。 在 三 维 格 网 中 ， 每 一 个 具有 p'” 个 节点 的 
都 串 以 被 看 成 一 个 线性 阵列 。 就 像 在 线性 阵列 一 样 ， 在 二 维和 三 维 网 络 中 可 以 执 仁 归 约 ， 
从 震 反 转 请 息 的 方向 和 顺序 。 15 


[Be 
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图 4-5 在 16 节 点 格 网 中 的 一 对 多 广播 


4.1.3 超 立 方 体 


在 上 一 小 节 说 明 二 维 格 网 上 的 一 对 多 广播 分 成 两 个 阶段 ， 每 一 个 阶段 的 通信 沿 不 同 的 维 
进行 。 同 样 ， 在 一 个 三 维 格 网 上 进行 一 对 多 广播 要 分 三 个 阶段 进行 。 如 果 有 一 个 超 立 方 体 ， 
它 具 有 2 个 节点 ， 那 么 可 以 将 它 看 作 是 一 个 d 维 的 格 网 ， 每 个 维 上 有 两 个 节点 。 因 此 ， 格 网 算 
法 能 够 扩展 到 超 立 方 体 ， 唯 一 不 同 的 是 ， 在 超 立 方 体 中 的 通信 需要 分 d 步 来 进行 ， 每 一 步 对 应 
于 每 一 维 。 

图 4-6 中 显示 在 8 节点 超 立 方 体 中 进行 的 一 对 多 广播 ， 其 中 节点 0 是 源 节点 。 在 图 中 ， 通 信 
沿 最 高 维 开始 ( 即 由 节点 标号 二 进 制 表示 的 最 高 有 效 位 确定 的 维 ) ， 并 在 随 着 的 步骤 中 ， 沿 逐 
步 降低 的 维 数 进 行 。 值 得 注意 的 是 ， 图 4-6 中 ， 算 法 从 源 节点 到 目标 节点 的 三 个 通信 步 又 ， 与 
图 4-2 所 示 的 线性 阵列 中 的 广播 算法 一 样 。 但 是 ， 在 一 个 超 立 方 体 中 ， 通 信 中 选择 维 的 顺序 并 
不 影响 最 后 的 输出 结果 。 图 4-6 中 只 显示 这 些 顺 序 中 的 一 种 。 和 线性 阵列 不 同 ， 如 果 节 点 0 在 
第 一 步 将 消息 发 送 给 节点 1， 紧 接着 节点 0 和 1 将 消息 分 别 发送 给 节点 2 和 3， 最 后 ， 节 点 0，1， 
2，3 再 将 消息 分 别 发 送 给 节点 4，5，6，7， 那 么 超 立 方 体 广 播 不 会 出 现 拥 塞 。 


4.1.4 平衡 二 叉 树 


一 对 多 广播 的 超 立 方 体 算法 自然 地 映射 到 平衡 二 又 树 ， 在 平衡 二 又 树 中 ， 每 一 个 叶子 是 
处 理 闻 点 ， 每 一 个 中 间 节 点 是 开关 单元 。 图 4-7 显 示 8 个 节点 的 情形 。 图 4-7 中 的 通信 节点 和 图 
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4-6 中 所 示 的 超 立 方 体 算法 中 的 节点 有 相同 的 标号 。 图 4-7 表 明 ， 所 有 通信 和 链 路 在 任何 时 刻 都 不 
会 出 现 拥塞 。 图 4-7 还 说 明 ， 在 超 立 方 体 中 和 树 中 的 通信 之 间 的 区 别 在 于 ， 树 中 沿 不 同 路 径 有 


不 同 数目 的 开关 节点 。 





pd 
”2 ~、 ~ 
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图 4-7 在 8 节点 树 上 的 一 对 多 广播 


4.1.5 算法 细节 


仔细 观察 图 4-2、 图 4-5、 图 4-6 和 图 4-7 会 发 现 ， 这 一 节 的 4 种 互连网 络 中 ， 一 对 多 广播 所 
采用 的 基本 通信 模式 是 相同 的 。 现 在 我 们 说 明 广播 和 归 约 操作 的 实现 过 程 。 为 简单 起 见 ， 这 
里 是 在 超 立 方 体 结构 中 描述 算法 并 假定 通信 进程 的 数目 是 2 的 震 。 但 是 ， 这 些 算法 适用 于 任何 
网 络 拓扑 ， 同 时 可 以 很 容易 推广 到 任意 进程 数目 (习题 4.1 )。 

算法 4-1 显 示 在 一 个 2 节点 网 络 上 一 对 多 广播 的 过 程 ， 其 中 节点 0 是 广播 的 源 节 点 。 这 个 过 
程 将 在 所 有 节点 上 执行 。 在 任何 节点 上 ，my_id 的 值 就 是 节点 的 标号 。 令 X 为 要 广播 的 消息 ， 
它 最 初 驻 留 在 节点 0 上 。 这 个 过 程 执行 4 步 通信 ， 每 步 治 假定 的 超 立方 体 上 的 一 个 维 。 在 算法 
4-! 中 ， 通 信 从 最 高 维 向 最 低 维 进行 (实际 上 这 一 过 程 中 选择 的 维 数 顺 序 对 结果 没有 影响 )， 
循环 计数 器 i 显示 超 立 方 体 中 当前 正在 进行 通信 的 维 。 只 有 节点 标号 的 i 位 最 低 有 效 位 全 为 0 的 





节点 才 参 与 沿 第 ; 维 的 通信 。 例 如 ， 在 图 4-6 所 示 的 三 维 超 立方 体 中 ,在 第 一 步 中 i 等 于 2。 因 此 ， 
只 有 节点 0 和 4 通信 ， 因 为 它们 的 最 低 两 位 有 效 位 为 0。 在 下 一 步 中 ， 当 i= 1 时 ， 最 低 有 效 位 为 
0 的 所 有 节点 ( 即 季 点 0，2，4 和 6) 参与 通信 。 当 沿 所 有 的 维 完 成 通信 后 ， 这 个 过 程 结束 。 

变量 mask 用 来 帮助 判断 在 循环 的 一 次 特定 迭代 中 有 哪些 节点 通信 。 变 量 mask 有 d (= log 门 
位 ， 所 有 位 最 初 被 置 为 1( 第 3 行 )。 在 每 次 循环 开始 时 ，mask 的 最 高 有 效 非 0 位 被 置 0( 第 5 行 )。 
第 6 行 决定 外 层 循环 的 当前 迭代 中 参与 通信 的 节点 。 例 如 ， 在 图 4-6 中 的 超 立 方 体 中 ，rmasKk 最 
初 被 置 为 111 ， 在 i = 2(masKk 的 ;位 最 低 有 效 位 为 上 的 迭代 中 masK 被 置 为 011。 第 6 行 中 的 AND 操 
作 只 选择 ;位 最 低 有 效 位 为 0 的 那些 节点 。 

在 沿 第 ; 维 选 出 的 通信 的 节点 中 ， 第 ;位 为 0 的 节点 发 送 数据 ， 而 第 ;位 为 1 的 节点 接收 数据 。 
第 7 行 代码 用 来 判定 接收 和 发 送 节 点 。 例 如 ， 在 图 4-6 中 ， 在 对 应 于 i = 2 的 迭代 内 ， 节 点 0(000) 
是 发 送 节 点 ， 而 节点 4(100) 是 接收 节点 。 同 样 ， 当 i = 1 时 ， 节 点 0(000) 和 4(100) 是 发 送 节 点 ， 
而 节点 2(010) 和 6(110) 是 接收 节点 。 

只 有 当 节 点 0 是 广播 源 时 ， 算 法 4-1 才 能 执行 。 对 于 任意 源 的 广播 ， 在 调用 这 个 过 程 前 ， 
必须 把 假定 的 超 立 方 体 中 的 每 个 节点 的 标号 和 源 节点 的 标号 进行 XOR 操 作 ，、 对 节点 重新 编号 。 
算法 4-2 为 修改 后 的 一 对 多 广播 算法 ， 其 中 源 节 点 是 0 和 p-1 中 的 任何 节点 。 通 过 第 3 行 的 XOR 
操作 ， 算 法 4-2 把 源 节点 重新 标号 为 0 号 ， 并 对 相对 于 源 节点 的 其 他 节点 重新 编号 。 重 新 编号 
以 后 ， 可 以 用 算法 4-1 来 进行 广播 。 155 


算法 4-1 在 一 个 d 维 p 节点 超 立 方 体 的 节点 0 上 进行 消息 X 的 一 对 多 广播 ， 其 中 
d = log p 。AND 和 XOR 分 别 为 按 位 过 辑 与 和 按 位 逻辑 异 或 操作 


l. procedure ONE.TO.ALL BC(d, my_id, X) 

2. begin | 

3. mask :一 24 — 1; Setalld bits of mask to 1 */ 
4. for i := d — 1 downto 0 do /* Outer loop */ 

5. mask := mask XOR 2:. /* Set bit i of mask to 0 */ 

6. if (my_id AND mask) = 0 then /* If lower i bits of my.id are 0 */ 
7. if (my_id AND 2') = 0 then 

8. msg_destination := Miy_id XOR 24; 

9. send X to mse_destination; 

10. else 

11. 和 msg_source := my_id XOR 2; 

12. receive X from msg.source; 

13. endelse; 

14. endif: 

15. endfor; 


16. end ONE_TO_ALL_BC 


算法 4-3 给 出 在 假设 的 超 立方 体 上 执行 多 对 一 归 约 的 过 程 ， 其 最 终结 果 累 积 在 节点 0 中 。 
单 节点 的 累加 是 一 对 多 广播 的 对 偶 。 因 此 ， 只 要 反 转 原来 一 对 多 广播 的 消息 的 顺序 和 方向 ， 
就 能 得 到 实现 归 约 所 需 的 通信 模式 。 算 法 4-3 中 显示 的 过 程 ALL_TO_ONE_REDUCE(d, my _id， 
m, X, sum) 和 算法 4-1 显 示 的 过 程 ONE_TO_ALL_BC(d, my_id, 如 非常 相似 。 一 个 差别 在 于 ， 
多 对 一 归 约 中 的 通信 从 最 低 维 向 最 高 维 进行 。 这 个 改变 反映 在 算法 4-3 对 变量 mask 和 i 的 操作 
中 。 另 外 ， 在 一 对 通信 节点 中 如 何 判定 源 节点 和 目标 节点 的 准则 也 刚好 相反 (第 7 行 )。 除 了 这 





114 务 了 4 全 


些 不 同 点 外 ， 过 程 ALL_TO_ONE_REDUCE 还 有 一 些 附加 的 代码 (第 13 和 14 行 ) 用 以 将 每 次 这 
代 中 接收 的 消息 加 起 来 (可 以 用 其 他 任何 结合 运算 来 代替 加 法 运算 )。 


4.1.6 成 本 分 析 


对 -- 对 多 广播 操作 和 多 对 一 归 约 进行 成 本 分 析 是 非常 简单 的 。 假 设 有 2 个 进程 参加 广播 或 
者 归 约 通信 ， 消 息 长 度 为 m 个 字 。 广 播 或 归 约 过 程 将 涉及 log P 个 点 到 点 的 简单 消息 传送 ， 每 
一 次 的 时 间 开 销 为 t; + i.m。 因 此 ， 过 程 的 总 时 间 为 : 


T=(t+tum)logp : (4-1) 
算法 4-2 在 假想 的 d 维 超 立方 体 上 由 源 节 点 发 起 的 对 消息 X 的 一 对 多 广播 。 
AND 和 XOR 是 按 位 逻辑 操作 
l. procedure GENERAL_ONE._TO ALL BC(d, my.id, source, X) 
2. begin 
3. my_virtualid := my_id XOR source; 
4. mask := 24 — 1; 
5. for :一 4 一 1downto0do /* Outer loop */ 
6. mask := mask XOR 2 /* Set biti of mask to 0 */ 
7. 站 (my.virtualid AND mask) = 0 then 
8. if (my_virtual id AND 2') = 0 then 
9. virtiual dest := my.virtual id XOR 2:'; 
10. send X to (virtual_dest XOR source); 
/* Convert virtual .dest to the label of the physical destination */ 
1 1. else 
12. virtual_source := my.virtualid XOR 2'; 
13. receive X from (virtual_source XOR source); 
/* Convert virtual_source to the label of the physical source */ 
14. enidelse; 
13. endfor.; 


16. end GENERAL_ONE_TO_ALL_BC 





4.2 多 对 多 广播 和 归 约 = 


多 对 多 广播 《all-to-all broadcast) 是 一 对 多 广播 的 推广 ， 其 中 所 有 p 个 节点 同时 发 起 一 个 
广播 。 虽然 一 个 进程 发 送 相同 的 m 字 消息 给 其 他 每 个 进程 ， 但 是 不 同和 的 进程 可 以 广播 不 同 的 消 
妃 。 多 对 多 广播 用 于 从 阵 运 算 中 ， 包 括 矩 阵 相 冬 和 秆 阵 ~ 向 量 相 乘 。 多 对 多 广播 的 对 偶 是 多 对 
多 归 约 (all-to-all reduction ) ， 其 中 每 个 节点 是 多 对 一 骨 约 的 目标 有 点 ( 习 题 4.8) 图 4-8 说 明 多 
对 多 广播 和 多 对 多 归 约 。 


Mp-， Mop. Mop. 
多 对 多 广播 
Mi Mi ML， 
Mo M M,,, M, M, Mo 
。 。 @ 1 多 对 多 归 约 。 二 





图 4-8 多 对 多 广播 与 多 对 多 归 约 





算法 4-3 在 一 个 d 维 超 立 方 体 上 的 单 节点 累积 。 每 个 节点 都 提供 一 个 长 度 为 m 字 的 消息 X， 
节点 0 是 和 的 目标 节点 。AND 和 XOR 是 按 位 逻辑 操作 


l. procedure ALL._TO_ONE REDUCE(d, yd m, X, sum) 
2. ”begin 
3. for j :=0tom— 1 do sumlj] := X[)]); 
4. mask := 0; 
5. fori:=0tod—1do 
/* Select nodes whose lower i bits are 0 */ 
6. if (my_id AND mask) = 0 then 
7. if (my_id AND 2') # 0 then 
8 msg.destination := my.id XOR 2'; 
9. send sum to msg_destination: 
10. else 
11. msg.source := my._id XOR 2'; 
12. receive X from msg.source.; 
13. for j :=0tom—1do 
14. sum[j] :=suml[j} + XE{)); 
14. endelse; 
16. mask := mask XOR 2'; /* Setbiti of maskto 1 */ 
17. endfor; 


l8. end ALL_TO_ONE_REDUCE 


执行 多 对 多 广播 的 一 种 方法 是 执行 p 个 一 对 多 广播 ， 每 个 节点 启动 一 个 一 对 多 广播 。 在 简 
单 执行 的 情况 下 ， 在 一 些 常见 的 结构 中 ， 采 用 这 种 方法 进行 多 对 多 广播 的 开销 是 一 对 多 广播 
的 p 倍 。 如 果 同 时 进行 p 个 一 对 多 广播 ， 并 把 所 有 需要 在 同一 条 路 径 上 传送 的 消息 链接 成 一 个 
长 度 为 各 个 消息 长 度 总 和 的 消息 进行 发 送 ， 就 能 更 加 充分 地 利用 互连网 络 的 通信 链 路 。 

下 面 几 小 节 将 描述 在 线性 阵列 、 格 网 以 及 超 立方 体 拓扑 结构 中 进行 多 对 多 广播 。 


4.2.1 线性 阵列 和 环 


在 线性 阵列 或 者 环 中 执行 多 对 多 广播 时 ， 在 整个 通信 完成 以 前 ， 网 络 中 所 有 的 通信 和 链 路 
可 以 一 直 保 持 繁 忙 状态 ， 因 为 每 个 节点 与 它 的 相 邻 节点 之 间 总 有 某 些 信 息 需 要 传递 。 每 个 节 
点 都 首先 把 需要 广播 的 数据 发 送 给 它 的 相 邻 节点 之 一 。 下 一 步 ， 从 它 相 邻 节点 之 一 把 接收 的 
数据 转发 给 其 他 相 邻 节点 。 

图 4-9 中 显示 8 节点 环 中 的 多 对 多 广播 。 在 具有 双向 链 路 的 线性 阵列 中 ， 可 以 执行 同样 的 
过 程 。 与 以 前 的 图 一 样 ， 图 中 箭头 上 的 整数 标号 表示 消息 发 送 过 程 的 第 几 步 。 在 多 对 多 广播 
中 ,，p 个 不 同 的 消息 在 一 个 p 节 点 的 网 络 中 循环 。 在 图 4-9 中 ， 每 个 消息 由 它 的 初始 源 节点 识别 ， 
初始 源 刁 点 的 编号 和 步骤 放 在 括号 里 。 例 如 ， 节 点 0 和 节点 1 间 的 弧 上 的 标号 2(7)， 表 示 第 2 步 
中 通信 的 数据 ， 是 节点 0 上 一 步 从 节点 7 收 到 的 。 如 图 4-9 所 示 ， 如 果 消 息 通信 是 在 单方 向 上 循 
坏 执行 ， 那 么 每 个 节点 会 在 p-1 步 之 内 从 其 他 节点 接收 到 全 部 p-1 个 信息 。 

算法 4-4 给 出 了 p 节 点 环 上 的 多 对 多 广播 过 程 。 在 每 个 节点 中 ， 和 将 要 广播 的 初始 消息 在 本 
地 命名 为 my_msg 。 当 过 程 结 束 时 ， 每 个 节点 把 p 个 消息 集合 存储 在 result 中 。 如 程序 所 示 ， 格 
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网 上 的 多 对 多 广播 两 次 应 用 线性 阵列 过 程 ， 其 中 一 次 沿 格 网 的 行 ， 另 一 次 沿 格 网 列 。 


1 (07) 1 (3) 


第 1 个 通信 步 又 


一 一 一 一 一 一 一 一 一 一 一 一 





2 (6) 
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图 4-9 8 节点 环 上 的 多 对 多 广播 


注 : 每 个 箭头 上 的 标号 显示 通信 步骤 ， 它 后 面 括号 里 的 标号 表示 在 广播 开始 之 前 拥有 当前 被 传送 消息 的 节 
点 。 在 每 个 节点 后 面 括号 里 的 整数 序列 是 节点 的 标号 ， 这 些 节 点 中 的 数据 在 当前 通信 步骤 进行 前 已 经 
接收 了 数据 。 图 中 只 显示 第 一 、 第 二 和 最 后 一 个 通信 步 晴 。 


多 对 多 归 约 是 多 对 多 广播 的 对 偶 ， 归 约 操作 开始 时 ， 每 个 节点 有 p 个 消息 ， 每 个 消息 被 累 
加 到 某 个 节点 。 多 对 多 归 约 可 以 通过 反 转 消息 的 方向 和 顺序 来 实现 。 例 如 ，8 节 点 的 环 中 的 多 
对 多 归 约 的 第 一 通信 步 又 对 应 图 4-9 中 的 最 后 一 步 ， 节 点 0 向 节点 7 发 送 消 息 msg[1]， 而 不 是 从 
太 扩 7 接收 消息 。 在 归 约 操作 中 ， 接 收 消息 时 ， 唯 一 的 附加 步骤 是 ， 在 向 其 他 相 邻 节点 转发 组 
合 消 息 前 ， 把 接收 到 的 消息 和 与 接收 到 的 消息 有 相同 目标 的 本 地 消息 副本 进行 合并 ， 并 作为 
接收 的 消息 。 算 法 4-5 给 出 p 节 点 环 上 多 对 多 归 约 的 过 程 。 





算法 4-4 Pp 节点 环 上 的 多 对 多 广播 


procedure ALL-TO_ALL_BC_RING(T_id, my_msg, p, result) 
begin 
left := (my.id — 1) mod p; 
right := (myid + 1) mod Pi 
resulf := my_msg; 
msg := result; 
fori:=1ltop—ldo 
send mse to right. 
receive msg from lefi, 
result := result U msg; 
endfor; 
end ALL_TO_ALL_BC_RING 


OooOD~ 


jek je 
DS 


算法 4-5 p 节点 环 上 的 多 对 多 归 约 
procedure ALL_TO_ALL. RED.RING(my_id, my_msg, p, result) 
begin 


left := (my-id — 1) mod p; 
right := (my.-id + 1) mod p; 
recy := 0: 
fori:=ltop—ldo 
J := (myjid + i) mod P; 
temp := msg[j] + recy; 
send temp to left, 
10. recejve recy from rightr.; 
11, endfor; 
12, result := msg[my.id] + recy:; 
13. end ALL_TO_ALL_RED_RING 


CPAMMPOD- 


4.2.2 格 网 


和 一 对 多 广播 一 样 ，2-D 格 网 上 的 多 对 多 广播 算法 也 是 基于 线性 阵列 算法 ， 同 样 把 格 网 的 
行 和 列 作为 线性 阵列 。 通 信 过 程 也 分 成 两 阶段 进行 。 第 一 阶段 ， 格 网 中 的 每 一 行 执行 一 次 线 
性 阵列 形式 的 多 对 多 广播 。 在 这 一 阶段 里 ， 每 个 节点 从 它们 各 自 所 属 的 具有 JP 个 节点 的 行 上 
收集 Vp 个 消息 。 每 个 节点 把 这 些 收集 到 的 销 息 聚 合成 一 个 大 小 为 mYp 的 消息 ， 然 后 进行 算 
法 的 第 二 通信 阶段 。 第 二 通信 阶段 按 列 对 合并 后 的 消息 执行 多 对 多 广播 。 当 这 一 阶段 完成 时 ， 
每 个 节点 获得 p 个 m 字 的 数据 ， 这 些 数据 原来 驻 留 在 不 同 的 节点 上 。 在 一 个 3 x 3 的 格 网 中 ， 算 
法 的 第 一 和 第 二 阶段 开始 时 的 数据 分 布 情况 如 图 4-10 所 示 。 

算法 4-6 给 出 Vp x VP 格 网 上 多 对 多 广播 的 过 程 。 多 对 多 归 约 的 格 网 过 程 留 作 读者 的 练习 
(习题 4.4)。 


4.2.3 超 立 方 体 


超 立 方 体 上 的 多 对 多 广播 算法 是 把 格 网 算法 扩展 到 log p 维 ， 所 以 超 立 方 体 上 的 多 对 多 广 
播 需 要 分 1og p 步 进行 。 通 信 的 每 一 步 沿 p 节 点 超 立方 体 的 不 同 维 进行 。 每 一 步 有 多 对 节点 交换 
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它们 的 数据 ， 而 且 加 倍 在 下 一 步 要 传送 消息 的 长 度 ， 把 接收 到 的 消息 和 节点 本 身 的 数据 连接 
起 来 。 图 4-11 显 示 在 一 个 具有 双向 通信 通道 的 8 节点 超 立 方 体 中 进行 上 述 遂 信和 的 步骤 。 


算法 4-6 Pp 节点 方形 格 网 上 的 多 对 多 广播 


l. ”procedure ALL_TO_ALL_BC_MESH(my-id, mymsg, p, result) 
2. ”begin 


/* Communication along rows */ 
3 left := my-id — (my-id mod VP) + (myjid — l)modVp; 

4 right := my-id — (my-id mod VP) + (myJid + 1) mod /Pi 
5 result := my_mseg:; 

6. msg := result; 

7， fori:=l1lto Vp—1do 

8 Send mspg to right; 

9. receive msg from left, 

10. result := result U msg:; 

] 1. endfor: 


/* Communication along columns */ 
12. up := (my.-id — VP) mod p; 
13. down := (myJid + VP) mod p; 


14. mseg := result; 

15., fori:=1to Vp—1do 
16. send msg to down; 

17. receive msg from up; 
18. result := result U msg; 
19. endfor; 


20. end ALL_TIO_ALL_BC_MESH 





算法 4-7 是 在 d 维 超 立 方 体 上 多 对 多 广播 的 实现 过 程 。 通 信 从 超 立 方 体 的 最 低 维 开 始 ， 连 
续 向 高 维 方向 进行 (第 4 行 )。 在 每 次 迭代 中 节点 成 对 地 进行 通信 ， 所 以 ， 在 第 ; 步 迄 代 中 ， 以 二 
进 制 表示 的 相互 通信 的 两 个 节点 的 标号 ， 其 第 i 位 最 低 有 效 位 不 同 (第 5 行 )。 在 一 次 迭代 的 通信 
步骤 后 ， 每 个 节点 把 它 接收 到 的 数据 与 它 自身 的 数据 连接 起 来 (第 8 行 )。 这 个 连接 后 的 消息 在 
下 一 次 选 代 中 传送 。 


算法 4-7 d 维 超 立 方 体 上 的 多 对 多 广播 


l. procedure ALL_TO_ALL BC_HCUBE(my_id, my_msg, d, result) 
2. begin 
3 resulft := my_msg; 
4 fori:=0tod—ldo 
和， pariner := my.id XOR 21， 
6. Send result to partner:; 
7 receive mssg from parmer; 
8 result := result LU msp.; 
9. endfor; 
10. end ALL_TO.ALL BC_HCUBE 
CC 
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(0,1,2) (0,1,2) (0,1,2) 


a) 初始 数据 分 布 b) 按 行 广播 后 的 数据 分 布 


图 4-10 3 x 3 格 网 上 的 多 对 多 广播 


注 : 每 一 阶段 中 相互 通信 的 节点 包含 在 虚线 内 。 在 第 二 阶段 结束 时 ， 所 有 节点 都 接收 到 (0, 1, 2, 3, 4, 5, 6， 
7) ( 即 来 自 每 个 节点 的 消息 )。 


算法 4-8 d 维 超 立 方 体 上 的 多 对 多 广播 。AND 和 XOR 分 别 是 按 位 逻辑 与 和 按 位 异 或 操作 


7 procedure ALL._TO_ALL RED_HCUBE(my id, msg, d, result) 
2. 
3. recloc := 0; 
4. for :==dL 一 1to0do 
和 . Dartner := my id XOR 2:; 
6. j := myJjid AND 2 
7. k := (my id XOR 2') AND 24; 
8. senloc := recloc + k; 
9. recloc := recloc + J; 
10. send msg[senloc .. senloc + 2: — 1] to pariner; 
11. receive temp[0 .. 2 — 1] from partner.; 
12. for j :=0t02—14do 
13. msglrecloc + j] := msg[recioc + /+temp[ 
14. endfor; 
15. endfor,; 


16. result := msg[my.id}; 
17. end ALL_TO_ALL_RED_HCUBE 


如 通常 那样 ， 通 过 反 转 对 多 对 多 广播 消息 的 方向 和 顺序 ， 可 以 导出 多 对 多 归 约 算法 。 而 ”|161 
且 ， 归 约 操作 要 在 缓冲 区 中 选择 合适 的 子 集 进行 发 送 ， 并 在 每 次 迭代 中 累积 接收 到 的 消息 ， |.63 
而 不 是 像 广播 操作 那样 只 对 消息 进行 连接 。 算 法 4-8 给 出 4 维 超 立 方 体 上 多 对 多 归 约 的 过 程 。 
每 次 进 代 中 ， 算 法 用 senioc 指 向 即将 发 送 的 消息 的 开始 位 置 ， 用 recloc 指 向 累积 接收 到 的 消息 
的 位 置 。 
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(0,...,7) (0,....7) 





c) 第 3 步 之 前 的 分 布 d) 消息 的 最 后 分 布 
图 4-11 8 节点 超 立 方 体 上 的 多 对 多 广播 


4.2.4 成 本 分 析 


在 环 或 者 线性 阵列 中 ， 多 对 多 广播 包含 最 近 的 相 名 节点 间 的 p-1 步 通信 。 每 一 步 通信 中 的 
消息 长 度 为 mr， 用 时 # + tm。 因 此 ， 整 个 操作 用 时 为 


T=(t+tum)(p— 1) (4-2) 
同样 ， 在 格 网 中 ， 第 一 阶段 在 时 间 (1, +&m)(VP -1D 内 进行 Vp 个 多 对 多 广播 (每 个 广播 在 
VP 个 节点 之 间 进行 )。 第 二 阶段 参加 多 对 多 广播 的 节点 数 依 然 是 Vp 个， 但 是 每 个 消息 的 长 度 


变 为 mVP 。 因 此 ， 本 阶段 的 通信 时 间 是 (+& mwVB)(CVP -D 。 在 p 节 点 的 二 维 方形 格 网 中 进行 
多 对 多 广播 操作 的 总 时 间 开 销 为 每 个 阶段 所 用 时 间 的 和 ， 即 


T=2(VP -1)+twm(p—1) (4-3) 


在 Pp 市 点 的 超 立 方 体 中 ， 一 共 将 进行 log p 步 通信 和 操作， 第 i 步 中 交换 的 消息 长 度 为 2!im。 
在 第 i 步 ， 一 对 节点 相互 发 送 和 接收 消息 将 耗 时 t, +2"!t, 。 因 此 ， 完 成 整个 过 程 的 时 间 为 
logp 


Dts + 2 lem) 
i=!l 


= tlogp+itwm(p— 1) (4-4) 


T 





公式 4-2、4-3 和 4-4 说 明 ， 对 所 有 体系 结构 ， 在 多 对 多 广播 通信 时间 表 达 式 中 入 有关 的 项 
是 t,m(p-1)。 在 每 个 节点 一 次 只 能 有 一 个 端口 通信 的 并 行 计算 机 上 ， 这 一 项 间 时 也 是 多 对 多 
广播 通信 和 时间 的 下 界 。 这 是 因为 无 论 在 何 种 体系 结构 中 ， 每 个 布点 接收 至 少 长 度 为 m(p-1) 个 
字 的 数据 。 所 以 ， 对 于 大 消息 来 说 ， 像 超 立 方 体 这 样 高 度 连接 的 网 络 ， 进 行 多 对 多 广播 或 多 
对 多 归 约 时 ， 其 性 能 并 不 优 于 人 简单 的 环形 结构 。 事 实 上， 在 环 这 样 简单 结构 中 的 直接 多 对 多 
广播 算法 更 有 实际 意义 。 仔 细 考 查 这 一 算法 看 出 ， 它 是 p 次 一 对 多 广播 的 序列 ， 只 是 每 次 的 新 
诅 扩 不 同 。 这 些 广播 都 以 流水 线 方式 进行 的 ， 所 深 可 在 一 共 p 步 最 相 邻 节点 间 的 通信 步 又 内 完 
成 。 许 多 并 行 算法 都 涉及 一 系列 不 同 源 节 点 的 一 对 多 广播 ， 其 中 还 会 伴随 着 一 些 计 算 。 如 果 
每 个 一 对 多 广播 都 采用 4.1.3 节 中 的 超 立 方 体 算法 进行 ， 那 么 "次 广播 将 耗 时 za(4 + twm)log p。 
男 一 方面 ， 如 果 用 如 图 4-9 所 示 的 方式 进行 流水 线 广播 ， 那 么 通信 和 的 时 间 不 会 超过 (t+ twm) 
-1)， 只 要 所 有 广播 的 源 节 点 不 同 ， 并 且 ns p。 在 后 面 几 章 ， 我 们 将 介绍 流水 线 广 播 如 何 提 
高 一 些 并 行 算法 的 性 能 ， 例 如 高 斯 消 元 法 (8.3.1 节 )、 回 代 法 (8.3.3 节 ) 以 及 寻找 图 中 最 短路 径 的 
Floyd 算 法 (10.4.2 节 )。 

多 对 多 广播 还 有 一 个 值得 注意 的 性 质 ， 与 一 对 多 广播 不 同 ， 超 立方 体 中 的 算法 不 能 不 作 
修改 地 应 用 于 环 和 格 网 结构 中 。 这 是 因为 如 果 将 超 立 方 体 中 的 多 对 多 广播 过 程 应 用 于 具有 相 
同 节 点 数 但 维度 较 小 的 网 络 中 ， 就 可 能 在 通信 和 链 路 中 引起 拥塞 。 例如， 图 4-12 显 示 在 环 中 进 
行 的 超 立方 体 多 对 多 广播 操作 执行 到 第 三 步 时 (图 4-11ic) 的 结果 。 所 有 4 个 消息 都 将 在 环 的 一 条 
链 路 上 通过 ， 所 耗费 时 间 为 完成 通信 步 又 时 间 的 4 倍 。 
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图 4-12 把 图 4-11c 中 的 超 立 方 体 通信 映射 到 环 上 时 出 现 的 通道 争 用 
4.3 全 归 约 与 前 缀 和 操作 


多 对 多 广播 通信 模式 也 可 用 来 执行 一 些 其 他 操作 。 其 中 一 种 操作 是 归 约 操作 的 第 三 种 变 
体 ， 操 作 开始 时 每 个 节点 有 一 个 关 字 的 缓冲 区 ， 操 作 结 束 时 每 个 节点 的 缓冲 区 的 长 度 同 为 mm， 
这 些 缓冲 区 古 用 一 个 结合 操作 符 对 原来 p 个 缓冲 区 进行 组 合 得 到 的 。 从 语义 上 讲 ， 这 个 操作 通 
常 称 为 全 归 约 《all-reduce) 操作 ， 它 等 同 于 先进 行 一 个 多 对 一 归 约 ， 再 进行 一 个 一 对 多 广播 。 
这 个 操作 与 多 对 多 归 约 不 同 ， 多 对 多 归 约 是 p 个 多 对 一 归 约 同时 进行， 并 且 每 个 操作 都 有 不 同 
的 目标 节点 。 

每 个 节点 上 的 单字 消息 全 归 约 操作 常 被 用 在 消息 传递 计算 机 上 实现 障碍 同步 。 归 约 操作 
的 语义 是 ， 当 执行 某 个 并 行程 序 时 ， 节 点 在 提供 一 个 数据 前 ， 归 约 操作 不 可 能 结束 。 

进行 全 归 约 的 一 个 简单 方法 是 首先 进行 一 个 多 对 一 归 约 ， 接 着 进行 一 次 一 对 多 广播 。 但 
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是 ， 使 用 多 对 多 广播 通信 模式 ， 可 以 更 快 地 进行 全 归 约 操 作 。 图 4-11 对 一 个 8 节点 超 立 方 体 说 
明 这 一 算法 。 假 设 图 中 括号 内 的 整数 不 代表 消息 ， 而 是 代表 将 要 和 原来 驻 留 在 标 有 整数 标号 
的 节点 中 的 数 进行 加 法 运算 的 数 。 为 了 进行 归 约 ， 我 们 按照 多 对 多 广播 过 程 的 通信 步骤 进行 ， 
只 是 在 每 一 步 结束 时 ， 对 两 个 数 相 加 而 不 是 连接 两 个 消息 。 在 归 约 过 程 终结 时 ， 每 个 节点 保 
存 和 (0 +1 +2+ … +7) (而 不 是 像 多 对 多 广播 中 那样 的 8 个 从 0 到 7 的 消息 )。 与 多 对 多 广播 不 同 ， 
归 约 操作 中 每 个 被 传送 的 消息 只 有 一 个 字 。 消 息 的 长 度 并 没有 在 每 一 步 中 加 倍 ， 因 为 对 数字 
进行 相 加 而 不 是 进行 连接 。 因 此 ， 所 有 p 步 通信 的 总 时 间 为 

T=(t++itwm)logp (4-5) 

如 果 my_msg、msg 和 result 都 是 数字 (而 不 是 消息 )， 且 把 第 8 行 的 并 操作 (“ (J”) 用 加 法 代 
替 ， 则 算法 4-7 可 用 来 对 p 个 数字 求 和 。 

求 前 缓和 (prefix sum) (也 称 为 扫描 (scan) 操 作 ) 是 另 一 个 重要 问题 ， 它 也 可 以 用 类 似 多 
对 多 广播 和 多 归 约 操作 的 通信 模式 解决 。 给 出 p 个 数字 no, ri, .…, ns_1 (每 个 节点 一 个 )， 问 题 是 
对 所 有 ki 计算 % = >》 ， 其 中 k = 0, 1, … , p-1。 例如， 如果 原 始 数字 序列 为 (3, 1, 4, 0, 2)， 
那么 前 缀 和 序列 为 (3,4, 8, 8, 10)。 开 始 时 ，ni 驻 留 在 节点 中 ， 过 程 结 束 后 ， 节 点 k 中 保存 si。 
每 个 节点 可 从 一 个 大 小 为 m 的 缓冲 区 或 者 向 量 开始 ， 而 不 仅仅 是 一 个 数 ， 最 后 m 字 的 结果 将 是 
原来 缓冲 区 中 的 相应 单元 的 和 。 

图 4-13 显 示 一 个 8 节点 超 立 方 体 的 求 前 缀 和 过 程 。 这 个 图 是 在 图 4-11 的 基础 上 修改 得 到 的 。 
修改 的 原因 是 为 了 适应 这 样 一 个 事实 ， 在 前 级 和 操作 中 ， 节 点 只 用 到 一 些 节点 的 k 节 点子 集 
中 的 信息 ， 这 些 节点 的 标号 小 于 或 等 球 。 为 了 累加 正确 的 前 组 和， 每 个 节点 维护 一 个 额外 的 
结果 缓冲 区 。 这 一 缓冲 区 在 图 4-13 中 用 方 括号 表示 。 在 一 个 通信 步骤 的 终点 ， 只 有 当 消 息 源 
节点 的 标号 小 于 接收 节点 的 标号 时 ， 接 收 到 的 消息 内 容 才 加 到 结果 缓冲 区 中 。 就 像 在 爹 归 约 
操作 中 一 样 ， 将 要 发 送 的 消息 内 容 (在 图 中 用 括号 表示 ) 用 每 个 接收 到 的 消息 进行 更 新 。 例 
如 ， 第 一 步 通 信 后 ， 节 点 0、2、4 并 不 把 从 节点 1、3、5 中 接收 到 的 数据 加 到 它们 的 结果 缓冲 
区 中 。 但 是 ， 将 下 一 步 要 发 送 的 消息 内 容 更 新 。 : 

由 于 不 是 把 一 个 节点 接收 的 所 有 消息 都 提交 给 最 终结 果 ， 节 点 接收 到 的 某 些 消 息 可 能 是 元 
余 的 。 在 图 4-13 中 ， 我 们 已 经 从 标准 的 多 对 多 广播 通信 模式 中 上 略 去 了 这 些 步 骤 ， 尽 管 这 些 步 受 
的 存在 与 否 并 不 影响 算法 的 最 终结 果 。 算 法 4-9 给 出 在 4d 维 超 立方 体 中 求解 前 级 和 问题 的 过 程 。 


(6) [6] (7) 0 (6) [6] (6+7) [6+7] 
到 一 





a) 数据 的 初始 分 布 b) 第 二 步 之 前 前 缀 和 的 分 布 


图 4-13 计算 8 节点 超 立 方 体 上 的 前 级 和 。 在 每 个 节点 上 ， 方 括号 表示 累积 在 结果 缓冲 区 中 的 
本 地 前 绥 和 ， 圆 括号 内 是 下 一 步 将 发 送 的 消息 缓冲 区 中 的 内 容 
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c) 第 “ 步 之 前 前 缀 和 的 分 布 d) 前 级 和 的 最 后 分 布 
图 4-13 ”( 续 ) 
算法 4-9 d 维 超 立 方 体 上 的 前 缀 和 


procedure PREFIX_SUMS_HCUBE(my.id, my-number, d, result) 
begin 
result := my .number; 
msg := result. 
fori:=0tod—1do 
partner := my_id XOR 2'; 
send msg to partmer,; 
receive number from partner.; 
msg := msg + number; 
10. if (partner < my.-id) then result := result + number, 
11. endfor.; 
12. end PREFIX_SUMS_HCUBE 
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4.4 散发 和 收集 


在 散发 (scatteD) 操 作 中 ， 单 个 节点 发 送 一 个 大 小 为 严 的 唯一 消息 给 每 一 个 其 他 的 节点 。 这 
个 操作 也 称 为 一 对 多 私自 通信 (one-to-all personalized communication )。 一 对 多 私自 通信 和 一 
对 多 广播 不 同 ， 私 自 通信 的 源 节 点 从 P 个 独自 消息 开始 ， 每 个 消息 将 发 给 不 同 的 节点 。 与 一 对 
多 广播 不 同 ， 一 对 多 私自 通信 并 不 涉及 任何 数据 复制 。 一 对 多 私自 通信 或 散发 操作 的 对 偶 是 
收集 ( gather) 操作 或 连接 (concatenation) 操作 ， 在 本 操作 中 ， 一 个 节点 从 其 他 各 个 节点 那 
里 处 收集 消息 。 收 集 操 作 也 和 多 对 一 归 约 操作 不 同 ， 收 集 操 作 并 不 涉及 数据 的 组 合 与 归 约 。 
图 4-14 中 说 明和 散发 和 收集 操作 . 


Mp-i 


2 
区 
忆 
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图 4-14 散发 和 收集 操作 
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尽管 散发 操作 在 语义 上 和 一 对 多 广播 不 同 ， 但 是 散发 操作 的 算法 和 广播 算法 十 分 相似 。 
图 4-15 给 出 8 帮 抹 超 立方 体 上 散发 操作 的 通信 步 又 。 一 对 多 广播 《图 4-6) 的 通信 模式 和 散发 
(图 4-15) 的 通信 模式 相同 ， 只 是 消息 的 内 容 和 大 小 不 同 。 在 图 4-15 中 ， 源 节点 (布点 0) 中 包 
含 所 有 的 消息 ， 这 些 消 息 由 它们 的 目标 布点 的 标号 标识 。 在 通信 的 第 一 步 ， 源 市 点 把 消息 
的 一 半 传 送 给 它 的 一 个 相 邻 节点 。 在 接 下 来 的 各 个 步骤 中 ， 每 个 有 数据 的 节点 把 它 的 一 半 
传递 给 还 未 接收 到 任何 数据 的 一 个 相 邻 节点 。 这 样 ， 在 log P 维 的 超 立方 体 中 共有 1log p 个 通 
信步 又 。 





c) 第 3 步 之 前 的 分 布 d) 消息 的 最 后 分 布 


图 4-15 8 节点 超 立方 体 中 的 散发 操作 


收集 操作 是 散发 操作 的 逆 操 作 。 通 信 开 始 时 ， 每 个 节点 有 m 字 的 消息 。 在 第 一 步 ， 每 个 奇 
数 号 的 节点 把 它 的 缓冲 区 发 送 给 它 后 面 的 一 个 偶数 号 相 邻 节点 ， 偶 数 节 点 把 接收 到 的 消息 和 
自己 缓冲 区 连接 。 只 有 偶数 号 节点 参加 下 一 步 通信 ， 在 其 中 这 4 个 节点 收集 更 多 的 数据 ， 并 使 
其 数据 的 大 小 加 倍 。 该 过 程 将 一 直 继续 到 节点 0 收集 到 整个 消息 时 结束 。 

像 一 对 多 广播 和 多 对 一 归 约 一 样 ， 超 立方 体 中 的 散发 和 收集 算法 可 以 不 作 修改 地 应 用 于 
线性 阵列 和 格 网 互 连 拓扑 结构 中 ， 并 且 不 会 增加 通信 时 间 。 

成 本 分 析 ”在 p 节 点 超 立 方 体 中 ， 沿 某 一 维 的 所 有 链 路 连接 着 两 个 p/2 节 点 的 子 立 方 体 
(2.4.3 节 )。 如 图 4-15 所 示 ， 在 散发 操作 的 每 一 个 通信 步骤 ， 数 据 从 一 个 子 立 方 体 流向 另 一 个 
子 立 方 体 。 在 开始 沿 某 一 维 的 通信 前 ， 需 要 把 个 个 节点 拥有 数据 的 一 半 发 送 给 另 一 个 立方 体 
中 的 一 个 节点 。 每 一 步 里 ， 正 在 通信 的 节点 保存 一 半数 据 ， 这 一 半 用 于 它 的 子 立 方 体 中 的 节 
点 ， 而 把 另 一 半数 据 发 送 给 另 一 个 子 立 方 中 它 的 相 邻 节点 。 把 所 有 的 数据 都 分 配 到 相应 的 目 





标 节 点 的 时 间 为 
T=itlogp+twum(p— 1) (4-6) 


散发 和 收集 操作 同样 可 以 在 线性 阵列 和 2-D 方 形 格 网 中 进行 ， 完 成 一 个 操作 耗 时 1, log p + 
1m(p-1) (习题 4-7)。 需 要 注意 的 是 ， 如 果 不 考 虑 消息 启动 时 间 的 项 ， 那 么 在 k-d 格 网 互 过 网 
络 (2.4.3 市 ) 中 ， 大 消息 的 散发 和 收集 操作 的 成 本 是 类 似 的 。 散 发 操作 中 ， 至 少 有 m(p-1) 字 的 
数据 需要 从 源 市 点 传 出 ， 而 在 收集 操作 中 ， 至 少 有 m(p-1) 字 的 数据 需要 由 目标 节点 接收 。 因 
此 ， 同 多 对 多 三 播 一 样 ，twm(p 一 1) 是 散发 和 收集 操作 通信 时 间 的 下 界 。 这 一 下 界 与 互连网 络 
结构 无 关 。 


4.5 多 对 多 私自 通信 


任 多 对 多 私自 通信 (all-to-all personalized communication) 中 ， 每 个 节点 发 送 一 个 大 小 为 
m 的 不 同 消 息 给 其 他 每 个 节点 。 每 个 节点 都 发 送 不 同 的 消息 给 不 同 的 节点 , 而 在 多 对 多 广播 中 ， 
每 个 六 点 发 送 相同 的 消息 给 所 有 其 他 的 节点 。 图 4-16 显 示 多 对 多 私自 通信 操作 。 仔 细 观 察 该 
图 将 会 发 现 ， 这 一 操作 等 价 于 使 用 一 维 数组 划分 (图 3-24)， 把 在 p 个 进程 之 间 分 布 的 数据 的 二 
维 数组 转 置 。 多 对 多 私自 通信 也 称 为 总 体 交 换 (total exchange)。 这 一 操作 常用 于 一 些 并 行 算 
法 中 ， 例 如 快速 伟 里 叶 变换 、 拖 阵 转 置 、 样 本 排序 以 及 某 些 并 行 数据 库 连 接 操作 。 
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图 4-16 多 对 多 私自 通信 


例 4.2 和 矩阵 转 置 


nx mn 矩阵 4 的 转 置 是 一 个 同样 大 小 的 矩阵 47， 其 中 47 亿 用 = h[j, 种 ，0 < i,j < mr 考虑 映 


射 到 "个 处 理 器 中 的 一 个 上 x 的 和 矩阵， 每 个 处 理 器 包含 矩阵 的 一 行 。 用 这 样 的 映射 ， 处 理 器 忆 
最 初 包含 的 矩阵 元 素 为 [i, 0], [i, 1], … , [i, n-1]。 转 置 后 ， 元 素 [i, 0] 属 于 处 理 器 Po。， 元 素 [i, 1] 
属于 处 理 器 P,， 依 此 类 推 。 一 般 说 来 ,元 素 [i, 中 最 初 驻 留 在 处 理 器 P; 中， 但 在 转 置 以 后 被 移 到 
处 理 器 户 。 图 4-17 显 示 这 个 过 程 的 数据 通信 模式 ， 使 用 一 维 按 行 划 分 把 一 个 4 x 4 矩阵 映射 到 4 
个 进程 。 需 要 注意 的 是 ， 图 中 每 个 处 理 器 发 送 矩 阵 的 不 同 元 素 给 每 个 其 他 的 处 理 器 。 这 是 一 
个 多 对 多 私自 通信 的 例子 。 

一 般 说 来 ， 如 果 使 用 p 个 进程 ，p < n， 那 么 每 个 进程 最 初 拥 有 和 矩阵 的 n/p 行 (也 就 是 m2/p 个 
元 素 )。 进 行 转 置 涉及 一 个 矩阵 块 大 小 为 n/p x n/p 而 不 是 单个 元 素 的 多 对 多 私自 通信 。 国 


现 住 ， 我 们 分 别 在 采用 线性 阵列 、 格 网 以 及 超 立 方 体 互连网 络 的 并 行 计 算 机 中 ， 讨 论 多 
对 多 私自 通信 的 实现 。 在 这 三 种 体系 结构 中 ， 多 对 多 私自 通信 的 通信 模式 与 多 对 多 广播 的 通 
信 模 式 相同 ， 只 是 消息 的 大 小 和 内 容 不 同 而 已 。 
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图 4-17 用 4 个 进程 的 4 x 4 矩阵 转 置 中 的 多 对 多 私自 通信 
4.5.1 环 


图 4-18 显 示 一 个 6 节点 线性 阵列 中 的 多 对 多 私自 通信 的 步骤 。 为 了 完成 这 一 操作 ， 每 个 节 
所 发 送 p-1 个 大 小 为 m 字 的 数据 。 图 中 这 些 消息 用 整数 对 全 让 标识 ， 其 中 i; 为 消息 源 ， 而 j 为 消 
息 的 最 终 目标 。 首 先 ， 每 个 节点 把 它们 所 有 的 数据 作为 一 个 合并 的 大 小 为 m(p-1) 的 消息 ， 发 
送 给 它们 的 一 个 相 邻 节点 (所 有 节点 在 疗 一 方向 上 通信 )。 在 这 一 步 一 个 节点 接收 的 m(p~1) 个 
字 的 数据 中 ， 有 一 个 m 字 的 包 属 于 该 节点 。 因 此 ， 每 个 节点 把 恬 于 它 的 信息 从 接受 的 数据 中 取 
出 来 ， 并 将 余下 的 (p-2) 个 大 小 为 m 的 信息 转发 给 下 一 个 节点 ， 这 一 过 程 将 继续 进行 p-1 步 。 在 
相继 的 每 一 步 中 ， 闻 点 之 间 传 送 的 数据 大 小 将 减 小 m 字 。 每 个 节点 在 每 一 步 把 来 自 一 个 不 同 节 
点 的 一 个 m 字 的 包 加 到 它 的 集合 中 。 因 此 ， 在 p-1 步 中 ， 每 个 节点 从 其 他 所 有 节点 处 接收 到 信 
息 。 
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图 4-18 6 节点 环 中 的 多 对 多 私自 通信 


注 ; 每 个 消息 的 标号 是 {x, y} 的 形式 ， 其 中 x 是 最 初 拥 有 消息 的 节点 的 标号 ， 而 y 是 消息 最 终 目标 节点 的 标 
1 标号 {{x1, y1}， {Xz yp2}, ..., sy )} 表 示 n 个 消息 连接 而 成 的 消息 。 


企 上 面 的 过 程 里 ， 所 有 的 消息 沿 相同 的 方向 发 送 。 如 果 让 一 半 消 息 沿 一 个 方向 发 送 ， 而 
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让 男 外 一 半 消 息 沿 另外 一 个 方向 发 送 ， 那 么 ， 由 zt 导致 的 通信 成 本 会 以 2 为 因子 下 降 。 为 简单 
起 见 ， 我 们 忽略 该 常数 因子 的 改进 。 

成 本 分 析 在 环 或 者 双向 线性 阵列 中 ， 多 对 多 私自 通信 包含 p~1 个 通信 步骤 。 由 于 在 第 i 步 
中 ， 传 送 消 息 的 大 小 为 m(p-i)， 这 个 操作 耗费 的 总 时 间 为 


了 


p—! 


Dts + twm(p — i)) 
1 一 
p—l 
6(P 一 也 十 Ditwm 
i 一 | 


(fs + tvump/2)(p— 1) (4-7) 


在 上 面 描述 的 多 对 多 私自 通信 过 程 中 ， 每 个 节点 发 送 m(p-1) 字 的 数据 ， 因 为 它 要 给 其 他 
每 个 节点 发 送 一 个 m 字 的 包 。 假 设 所 有 的 消息 沿 顺 时 针 方 向 或 者 逆 时 针 方向 进行 发 送 。 这 样 一 
个 m 字 的 包 的 平均 传送 距离 为 (5D)/(p~1) ， 即 p/2。 因 为 一 共有 p 个 节点 ， 每 个 节点 执行 
同样 的 通信 操作 ， 网 络 中 的 总 通信 量 (两 个 直接 相连 的 节点 间 传 送 的 总 数据 字数 ) 为 m(p-1) 
x p/2 x p。 网 络 中 分 担 这 一 负载 的 内 部 节点 链 路 总 数 为 ?。 因 此 ， 这 一 操作 的 通信 时 间 至 少 为 
(tw x m(p-1)p?/2)/p， 也 就 是 tm(p~1)p/2。 如 果 不 考 虑 消息 的 启动 时 间 t: ， 这 一 时 间 就 是 线性 
阵列 过 程 耗费 的 准确 时 间 。 因 此 ， 这 一 节 介 绍 的 多 对 多 私自 通信 算法 是 最 优 的 。 
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102141051108D) 12405118) 12.2},12,5},{2,8)) :1374 13,84,.(4,21,: 
:444471 |] 45314481 
[3.15.41 | ， 15.21.4551， 
a) 第 一 阶段 开始 时 的 数据 分 布 (3.01.13.31.13.61. : (S57 | l58) 
{4,0},14,3},14,6], ; 
[50h153h456D | ;i :| 
(0004 | 02),0,5, 
07h,b1: | {087.012} 
EA) SLS 
((0,0],10,34.10,6}, ' | 他 日 (24 :12,2},{2,5),: 
{013),{16), :fm NN; {27) 12.8) | 
{2.0},1231,{2,61) : 


b) 第 二 阶段 开始 时 的 数据 分 布 


图 4-19 在 3 x 3 格 网 上 的 多 对 多 私自 通信 每 个 阶段 开始 时 的 消息 分 布 。 当 第 二 阶段 结束 
时 节点 请 消息 {{0, 站 , …,{8, 站 }， 其 中 0<ig8。 每 一 阶段 中 
一 起 通信 的 节点 组 包含 在 虚线 框 中 
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4.5.2 格 网 


在 Vp x Vp 的 格 网 上 的 多 对 多 私自 通信 中 ， 每 个 节点 首先 根据 它 的 目标 节点 的 列 把 p 个 消 
息 分 组 。 图 4-19 显 示 一 个 3 x 3 格 网 ， 其 中 每 个 节点 最 初 含有 9 个 m 字 的 消息 ， 每 个 对 应 一 个 节 
点 。 每 个 告 点 把 它 的 数据 分 成 3 组 ， 每 组 3 个 消息 (一般 说 来 分 为 /Pp 组 ， 每 组 Vp 个 消息 )。 
第 … 组 包含 月 标 节点 为 0、3、6 的 消息 ; 第 二 组 包含 的 目标 节点 为 !、4、7 的 消息 ; 第 三 组 包 
含 目标 节点 为 2、5、8 的 消息 。 

消息 分 组 后 ， 多 对 多 私自 通信 开始 在 每 行 中 独立 执行 ， 其 中 传递 大 小 为 mVP 字 的 群集 。 
每 个 群集 包含 要 发 给 特定 列 的 所 有 Vp 个 节点 的 信息 。 图 4-19b 显 示 在 这 一 通信 阶段 结束 时 节 
点 之 间 的 数据 分 布 。 

在 第 二 通信 阶段 以 前 ， 每 个 节点 里 的 消息 被 再 次 排序 ， 此 次 排序 根据 它们 的 目标 节点 所 
在 列 进行 ; 于 是 通信 类 似 于 第 一 阶段 在 格 网 的 所 有 列 上 进行 的 通信 。 在 这 个 通信 阶段 结束 时 ， 
每 个 节点 都 从 其 他 每 个 节点 接收 一 个 消息 。 

成 本 分 析 在 等 式 (4-7) 中 ， 用 Vp 代替 节点 数 ，m Jp 代替 消息 的 大 小 ， 可 以 算出 第 一 阶 
段 耗 费 的 时 间 是 (1, +t_mp/2)(V5 -D 。 通 信 的 第 二 阶段 的 时 间 开 销 与 第 一 阶段 相同 。 所 以 ， 
在 p 节 点 二 维 方形 格 网 上 消息 大 小 为 m 的 多 对 多 私自 通信 的 总 时 间 为 


= (21s + tump)(VP ~ 1) | (4.8) 


等 式 (4-8) 中 多 对 多 私自 通信 时 间 开 销 的 表达 式 不 包括 数据 重新 排列 时 间 ( 即 按 行 或 按 列 对 
消息 进行 排序 的 时 间 )。 假 设 最 初 数据 是 为 通信 第 一 阶段 准备 的 ， 通 信 第 二 阶段 需要 对 mp 字 的 
数据 进行 重新 排列 。 如 果 设 i, 是 在 节点 的 本 地 存储 器 上 进行 一 次 单字 读 写 操作 的 时 间 ， 那 么 整 
个 通信 过 程 中 用 于 进行 数据 重新 排列 的 总 时 间 为 1, mp( 习 题 4.21)， 这 一 时 间 比 每 个 节点 花 在 通 
信 中 的 时 间 要 小 得 多 。 

从 对 线性 阵列 的 分 析 可 知 ， 在 一 个 比较 小 的 常 吉 因 数 范 围 里 ， 表 示 方形 格 风 中 多 对 多 到 
目 通 信 的 时 间 公 式 (4-8) 是 最 优 的 。 


4.5.3 超 立 方 体 


住 p 闻 反超 立方 体 上 ， 进 行 多 对 多 私自 通信 的 方法 之 一 是 把 它 在 二 维 格 网 中 的 算法 扩展 到 
log p 维 。 图 4-20 显 示 在 三 维 超 立方 体 上 进行 多 对 多 私自 通信 所 需 的 通信 步骤 。 如 图 所 示 ， 整 
个 通信 过 程 分 log p 步 进行 。 在 每 一 步 ， 处 于 不 同 维 的 节点 对 将 交换 数据 。 前 面 讲 过 ， 在 p 节 点 
超 立 方 体 中 ， 在 同一 维 中 有 一 个 p/2 条 链 路 的 链 路 集 ， 把 两 个 具有 p/2 个 节点 的 子 立 方 体 连接 起 
来 (2.4.3 节 )。 在 多 对 多 私自 通信 的 任意 阶段 中 ， 每 个 节点 上 保存 p 个 大 小 为 m 的 数据 包 。 在 每 
一 个 特定 的 维 上 进行 通信 时 ， 每 个 节点 发 送 它 这 些 包 中 的 p/2 个 包 (合并 为 一 个 消息 里 )。 这 
些 包 的 目标 是 当前 维 中 由 链 路 连接 起 来 的 其 他 子 立方 体 的 节点 。 

任 上 述 过 程 中 ， 一 个 节点 在 每 个 log p 步 通信 步 又 前 ， 必 须 在 本 地 重新 安排 它 的 消息 。 为 
了 确保 在 一 个 通信 步骤 里 ， 发 往 相同 节点 的 所 有 p/2 个 消息 占有 相 邻 的 内 存 地 址 ， 使 得 它们 可 
以 作为 一 个 合并 的 消息 传送 ， 这 样 做 是 必须 的 。 

成 本 分 析 “在 上 述 多 对 多 私自 通信 的 超 立 方 体 算法 中 ，log P 次 迭代 的 每 一 次 都 有 mp/2 字 
的 数据 在 双向 通道 中 交换 。 导 致 的 总 通信 时 间 为 





({6,014,{6,21,{6,4},{6,6}, ({6,1},16,3},{6,5},16,7}, 


({6,0} … {6,7}) ({7,0} ... {7,7}) {7.0},47,2},17,4},17,6)) {7,1},07,3),{7,5},17,7}) 
< 一 一 一 一 > 
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和 + 
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({2,0}) ... {27)) ({2.0}.12,2}, 
(2.4}.12.6}, 
{3,0],{3,2}, 


[3.4},{3,6}) 





{5,1},45,3), 






y 
({(0,0} ... {0.7}) ({1,0} ... {1,7}) ({0,0},10,2}.f0.4}.,10,6}, ({1,13,{1,3},{1,5},{1,7}, 
{1,0},11,21,.{1,4),{1,6}) {0,1},{0,3},10,5},{0,7}) 
a) 消息 的 初始 分 布 b) 第 2 步 前 的 消息 分 布 
({6,2},16,6},14,2}.14,.6}, ({7.3},.07,7}),15,3},{3,7}, 
A 721,17.0}.15,2),{5,6}) {6.3},{6,7},14,3},14,7}) ({0,6} ... {7.6)) (10,7} ... {7,7) 
Y (0,2),12,2), 人 
(10,6},{2.6}, 
{1.2},13,2}. ({4,1},16,1}, 
{1,6},13,6)) {4,5},{6,5}, 
{5,1},17,1}, 
({0,0},10,4},{2,0}.12.4}, ({1,1),{1,5),03,1},13,5}, ({0,0} ... {7.0D ({0,1) ... {7,1)) 
{1,0},01.4},13,0},{3,4)) {0,1},{0,5},02,1},12,5}) 
c) 第 3 步 前 的 消息 分 布 d) 消息 的 最 后 分 布 
图 4-20 三 维 超 立 方 体 上 的 多 对 多 私自 通信 算法 
T= (t+tvmp/2)logp (4-9) 


在 log p 个 通信 步骤 的 每 一 步 之 前 ， 一 个 节点 要 重新 排列 mp 个 字 的 数据 。 因 此 ， 在 整个 过 
程 中 ， 每 个 节点 在 本 地 重新 排序 数据 耗费 的 时 间 为 1, mp log p。 这 里 ，z, 为 在 节点 的 本 地 存储 
器 上 执行 一 次 读 写 一 个 字 操 作 所 需 的 时 间 。 对 于 大 部 分 计算 机 来 说 ，t, Et 小 得 多 ; 因此 ， 通 
信和 时间 开销 是 多 对 多 私自 通信 和 的 主要 时 间 开 销 。 

有 趣 的 是 ， 与 在 本 节 描 述 的 线性 阵列 和 格 网 算法 不 一 样 ， 超 立方 体 算法 并 不 是 最 优 的 。p 
个 节点 每 个 都 发 送 和 接收 mp-1) 字 的 数据 ， 并 且 超 立方 体 中 的 任意 两 个 节点 间 的 平均 距离 为 
(log p)/2。 因 此 ， 网 络 中 传送 的 总 数据 量 为 p x m(p-1) x (log p)/2。 由 于 超 立 方 体 网 络 中 共有 
(p log p)/2 条 通信 和 链 路 ， 多 对 多 私自 通信 时 间 的 下 界 为 
twpm(p — 1)(log p)/2 

(p log p)/2 
tum(p— 1) 


T 


| 





0 


优化 算法 实例 

多 对 多 私自 通信 将 有 效 地 完成 每 对 斑点 对 某 些 数据 的 交换 。 在 超 立 方 体 上， 进行 这 种 数 
据 交 换 的 最 好 办 法 是 让 每 一 对 点 直接 遂 信 。 这 样 ， 每 个 市 尽 只 执行 p-1 个 通信 步骤 ， 在 每 一 
步 每 个 不 同 的 庙 点 交换 m 字 的 数据 。 每 个 市 点 在 每 个 通信 步骤 中 选择 通信 对 象 ， 所 以 超 立 方 体 
链 路 不 会 出 现 拥塞 。 图 4-21 显 示 在 三 维 超 立方 体 中 逐 对 交换 数据 的 无 拥塞 调度 。 如 图 所 示 ， 
仕 第 /步道 信步 又 中 ， 和 节点 i 和 节点 (i XOR 记 交 换 数 据 。 例 如 ， 在 图 4-21a (步骤 1) 中 ， 参 加 通 
信 的 节点 对 的 二 进 制 标号 最 低 有 效 位 不 同 。 在 图 4-21g (步骤 7) 中 ， 参 加 通信 的 节点 对 的 二 
进 制 标 写 的 所 有 位 都 不 同 ， 因 为 7 的 二 进 制 表示 为 111。 在 这 个 图 中 ， 每 一 步 通 信和 的 所 有 路 径 
者 是 无 拥塞 的 ， 并 且 在 所 有 双向 链 路 的 同一 方向 上 不 会 传送 一 个 以 上 的 消息 。 这 一 点 对 任何 
维 的 超 立 方 体 来 说 都 成 立 。 如 果 对 消息 适当 地 选择 路 由 ， 则 在 p 节 点 超 立 方 体 上 存在 一 个 具有 
p-1 步 通信 的 无 拥塞 多 对 多 私自 通信 调度 。 在 2.4.3 节 中 讲 过 ， 在 超 立 方 体 上 从 节点 i 到 节点 j， 
传送 一 个 消息 至 少 要 经 过 /条 链 路 ， 其 中 /为 节点 i 到 节点 j 之 间 的 Hamming 距 离 (也 就 是 (i XOR 
让 的 二 进 制 表示 中 非 0 位 的 个 数 )。 一 个 消息 从 节点 ;传送 到 节点 j 要 通过 ! 个 维 (对 应 于 (i XOR 让 
的 一 进 制 表示 中 非 0 位 的 个 数 ) 中 的 链 路 。 尽 管 消 息 可 以 经 i 和 j 中 多 条 长 度 为 ! (假设 ! > 1) 的 
路 径 中 的 任意 一 条 进行 传送 ， 但 是 消息 传送 的 路 径 通 过 对 维 数 按 升序 排序 的 方式 选择 。 按 照 
这 一 策略 ， 第 一 条 链 路 选择 在 (i XOR 有 ) 的 最 低 非 O 有 效 位 所 对 应 的 维 中 ， 以 此 类 推 。 这 种 路 由 
选择 方案 称 为 E 立 方 体 路 由 选择 (E-cube routing)。 算 法 4-10 的 d 维 超 立 方 体 上 的 多 对 多 私自 通 
言 就 基于 这 一 策略 。 





图 4-21 8 节点 超 立 方 体 上 的 多 对 多 私自 通信 的 7 个 步 又 
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涂 太 通信 操作 
0 --->1 >3 >7 
1 --->0 >2--->6 
2 --->3--->1 >5 
3--->2 >0 --->4 
4--->5--->7 >3 
5 ->4--->6 >2 
6 --->7--->5 > 1 
7--->6 >4--->0 
g) 
图 4-21 ( 续 ) 


算法 4-10 d 维 超 立方 体 上 进行 多 对 多 私自 通信 的 过 程 。 
消息 Mi,; 最 初 驻 留 在 节点 ji 中， 通信 和 目标 为 节点 j 


procedure ALL_IO_ALL_PERSONAL(d, my._id) 


] 

2. begin 

3 fori:=1to2 -1do 

4. begin 

5. partner := my._id XOR 1 
6 Send Mmy id, pariner to parmer; 

7 receive M yariner,my id from partner:; 
8 endfor: 

9 end ALL_TO_ALL. PERSONAL 


成 本 分 析 E 立 方 体 路 由 选择 确保 ， 按 照 算 法 4-10 选 择 参 加 通信 的 节点 对 ， 在 通信 时 间 1, + 

1m 内 可 以 将 消息 从 节点 i 传送 到 节点 i/， 因 为 在 节点 i 和 节点 j 之 间 的 通信 和 链 路 的 同一 方向 上 不 
会 出 现 其 他 消息 的 争 用 。 总 的 通信 时 间 为 

T(t +t+tum)(p—1) : (4-10) 


把 等 式 (4-9) 和 (4-10) 进 行 比较 会 发 现 ， 第 二 个 超 立 方 体 算法 中 和 1, 有 关 的 项 比 第 一 个 算法 


中 的 大 ， 而 与 有 关 的 项 比 第 一 个 算法 中 的 小 。 因 此 ， 对 于 小 消息 来 说 ， 启 动 时 间 可 能 占 支 
配 地 位 ， 所 以 第 一 种 算法 可 能 还 是 有 用 的 。 


4.6 循环 移 位 


傅 环 移 位 是 称 为 置换 (permutation ) 的 更 大 一 类 全 局 通信 操作 的 一 种 。 置 换 是 同时 进行 
的 一 对 一 数据 重新 分 布 的 操作 ， 其 中 每 个 节点 发 送 一 个 m 字 的 包 给 一 个 唯一 的 节点 。 循 环 g 移 
位 (circular 9-shift) 定义 为 这 样 一 种 操作 : 在 一 个 p 节 点 的 总 体 中 ， 节 点 i 发 送 一 个 数据 包 给 
所 (i + 4) mod p， 其 中 (0 < 4 < 六 。 移 位 操作 在 某 些 和 矩阵 计算 及 字符 串 和 图 像 模 式 匹 配 上 都 
有 应 用 ， 


4.6.1 格 网 
人 循环 4g 移 位 操作 在 环 以 及 双向 线性 阵列 中 的 实现 是 很 直观 的 。 它 可 以 通过 min{g, p-q} 次 相 
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邻 节点 间 沿 一 个 方向 的 通信 来 实现 。 循 环 移 位 的 格 网 算法 可 以 由 环 算法 导出 。 

如 果 格 网 中 的 节点 按 行 进行 编号 ， 那 么 在 p 节 点 的 方形 环绕 格 网 中 ,循环 9 移 位 操作 可 以 
分 两 个 阶段 完成 。 图 4-22 中 显示 一 个 4x 4 格 网 中 进行 循环 5 移 位 的 过 程 。 首 先 ， 整 个 数据 集 沿 
行 方向 同时 移 位 (gmodVP) 步 。 然 后 沿 列 方向 移 位 |?/VP | 步 。 在 循环 行 移 位 中 ， 某 些 数据 通 
过 从 最 高 标号 节点 到 最 低 标号 节点 的 环绕 连接 。 所 有 这 样 的 数据 包 必须 向 列 方向 进行 一 次 附 
加 的 移 位 步骤 ， 以 补偿 它们 在 各 自行 的 后 向 边 上 移动 时 少 走 的 Vp 距离 。 例 如 ， 图 4-22 中 的 5 
移 位 操作 需要 一 次 行 移 位 ， 还 需 一 次 补偿 列 移 位 ， 以 及 最 后 一 次 列 移 位 。 
(2 (15) 


(D3) 0 











CGC CCC 


c) 第 王 个 通信 步骤 中 的 列 移 位 d) 最 后 的 数据 分 布 


图 4-22 4x4 格 网 上 的 一 个 循环 5 移 位 的 通信 操作 步骤 
实际 上 ， 我 们 可 以 在 行 上 和 列 上 选择 移 位 的 方向 ， 以 使 循环 移 位 操作 的 步骤 最 少 。 例 如 ， 
一 个 4x 4 格 网 上 的 3 移 位 操作 可 以 由 一 次 反 向 的 行 移 位 完成 。 用 这 一 策略 ， 沿 一 个 方向 的 单元 
移 位 数 不 会 超过 |VP 72|。 
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成 本 分 析 如果 考虑 一 些 包 的 补偿 列 移 位 操作 ， 那 么 p 市 点 格 网 上 数据 包 大 小 为 m 的 任何 
循环 4 移 位 的 总 时 间 的 上 界 为 


了 = (s+tum)(VPp+1) 


4.6.2 超 立 方 体 


企 设 计 移 位 操作 的 超 立 方 体 算法 时 ， 我 们 把 具有 2 人 个 节点 的 线性 阵列 映射 到 d 维 超 立 方 体 
中 。 这 样 做 时 ， 把 线性 阵列 中 的 节点 ;映射 到 超 立 方 体 中 的 节点 j， 使 得 是 ;的 d 位 二 进 制 反射 葛 
莱 码 (Reflected Gray Code, RGC)。 图 4-23 中 显示 8 个 节点 的 这 种 映射 过 程 。 这 种 映射 的 一 个 
性 质 是 线性 阵列 中 距离 为 2 的 任何 两 个 节点 都 恰好 由 超 立方 体 中 的 两 条 链 路 分 开 。 一 个 例外 
是 i = 0 ( 即 在 线性 阵列 中 直接 相 联 的 节点 )， 这 时 两 个 节点 只 由 超 立 方 体 中 的 一 条 链 路 分 开 。 





4 移 位 的 第 一 个 通信 步 又 4 移 位 的 第 二 个 通信 步 又 
a) 第 一 阶段 (4 移 位 ) 





b) 第 二 阶段 (1 移 位 ) c) 5 移 位 后 的 最 后 数据 分 布 


图 4-23 一 个 8 布点 线性 阵列 到 三 维 超 立 方 体 的 映射 ， 执行 一 次 由 4 移 位 
和 1 移 位 组 成 的 循环 5 移 位 操作 
为 了 进行 一 次 q 移 位 ， 我 们 把 4 扩充 为 不 同 的 2 的 得 之 和 ， 和 中 的 项 数 与 4 的 二 进 制 表示 中 
的 1 的 个 数 相 同 。 例 如 ， 数 5 可 以 表示 为 2: + 20。 这 两 项 对 应 于 5 的 二 进 制 表 示 ( 即 101) 中 的 
第 0 位 和 第 2 位 。 如 果 g 是 s 个 不 同 的 2 的 军 之 和 ， 那 么 超 立方 体 上 的 循环 4 移 位 在 s 步 内 完成 。 
在 每 个 通信 阶段 ， 通 过 以 2 的 宕 作为 间隔 简化 线性 阵列 ( 即 映 射 到 超 立方 体 )， 所 有 的 数据 
包 更 移 近 各 自 的 目标 。 例 如 ， 如 图 4-23 所 示 ， 一 个 5 移 位 操作 要 首先 进行 一 次 4 移 位 操作 ， 再 
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进行 一 次 1 移 位 操作 。g 移 位 中 通信 阶段 的 数目 等 于 gq 的 二 进 制 表 示 中 1 的 个 数 。 除 1 移 位 操作 外 ， 
每 个 阶段 都 包含 两 个 通信 步 坚 ， 如 果 需 要 1 移 位 操作 ( 即 是 如 果 gq 的 最 低 有 效 位 为 1 )， 只 有 一 
个 操作 步骤 。 例 如 ， 在 一 个 5 移 位 操作 中 ， 第 一 阶段 的 4 移 位 操作 (图 4-23a) 包含 两 个 步骤 ， 
而 第 二 阶段 的 1 移 位 操作 (图 4-23b) 包含 一 个 步骤 。 因 此 ， 在 p 节 点 的 超 立 方 体 中 ， 任 何 q 移 
总 的 步骤 至 多 为 2 log p--1。 

在 一 个 给 定 的 时 间 步 ， 所 有 的 通信 都 是 无 拥塞 的 。 这 一 点 是 由 线性 阵列 到 超 立方 体 的 映 
射 性 质保 证 的 ， 因 为 线性 阵列 中 所 有 距离 为 2 的 知 的 节点 被 映射 到 超 立 方 体 后 重新 排列 在 超 立 
方 体 不 相 联 的 子 阵列 上 。 这 样 ， 所 有 节点 可 以 以 循环 的 形式 分 别 在 它们 的 子 阵列 中 自由 通信 上。 
如 图 4-23a 所 示 ， 图 中 标号 为 0、3、4、7 的 节点 形成 一 个 子 阵列 ， 而 标号 为 1、2、5、6 的 节点 
形成 另 一 个 子 阵列 。 

对 于 p 节 点 超 立 方 体 上 任何 m 字 的 消息 包 的 移 位 操作 ， 总 的 通信 时 间 的 上 界 为 

T=(t+twm)(2logp—1) (4-11 ) 

通过 同时 进行 向 前 和 向 后 的 移 位 ， 可 以 把 这 个 上 界 减 小 到 (tf; + tm)log p。 例 如 ， 在 8 节点 
的 超 立 方 体 中 ， 一 个 6 移 位 操作 可 以 通过 一 次 向 后 的 2 移 位 操作 代替 一 次 向 前 的 4 移 位 操作 再 加 
上 一 次 向 前 的 2 移 位 操作 来 实现 。 





g) 7 移 位 
图 4-24 8 节点 超 立 方 体 上 的 循环 4 移 位 操作 ， 其 中 1 gq<8 





现在 要 说 明 的 是 ， 如 果 使 用 4.5 节 介绍 的 E 立 方 体 路 由 选择 ， 则 超 立 方 体 上 长 消息 的 循环 
移 位 操作 的 时 间 几 乎 可 以 提高 一 个 log p 的 因子 。 因 为 使 用 E 立 方 体 路 由 选择 后 ， 在 具有 双 疝 通 
路 的 超 立 方 体 中 ， 每 一 对 距离 为 常数 l(i< 1 < p) 的 节点 间 有 一 条 无 拥塞 的 通路 (习题 4.22)。 图 
4-24 显 示 8 节 点 超 立 方 体 上 所 有 消息 的 循环 gq 移 位 操作 的 无 冲突 通路 ， 其 中 1< 4g < 8。 在 p 市 后 
超 立 方 体 上 的 循环 4 移 位 中 ， 最 长 的 路 径 包 含 log p~y (9) 条 链 路 ， 其 中 y (9) 是 使 得 g 可 以 被 2 整 

除 时 最 大 整数 ) (习题 4.23)。 因 此 ， 长 度 为 m 的 消息 总 的 通信 时 间 为 
T=t +tum (4-12) 


4.7 提高 某 些 通信 操作 的 速度 


本 章 至 此 为 止 ， 我 们 假设 通信 的 源 消 息 不 能 被 划分 成 更 小 的 部 分 ， 同 时 每 个 节 所 只 有 一 
个 端口 可 用 来 发 送 和 接收 数据 ， 由 此 导出 了 各 种 通信 操作 的 过 程 以 及 它们 的 通信 和 时间。 本 市 
将 简单 地 讨论 当 放 宽 假设 中 的 条 件 时 给 通信 操作 带 来 的 影响 。 - 


4.7.1 消息 分 裂 和 路 由 选择 


在 4.1 ~ 4.6 市 描述 的 过 程 中 ， 我 们 假定 整个 m 字 的 数据 包 在 源 节 点 与 目标 市 挟 间 的 同一 条 
路 径 上 传送 。 如 果 我 们 把 这 些 大 的 消息 划分 成 比较 小 的 消息 ， 然 后 通过 不 同 的 路 径 传送 这 些小 
的 消息 ， 就 能 更 充分 地 利用 通信 网 络 。 除 了 一 些 特 例 以 外 ， 如 一 对 多 广播 、 多 对 一 归 约 以 及 全 
归 约 等 ， 这 一 章 讨论 的 通信 操作 对 大 消息 来 说 是 渐 近 最 优 的 ; 也 就 是 说 ， 这 些 操 作 的 成 本 中 与 
tw 有关 的 那些 项 不 能 再 源 近 减少 了 。 本 节 将 提出 三 个 全 局 通信 操作 的 渐 近 最 优 算法 。 

注意 本 节 中 的 算法 依赖 于 m 大 到 足以 被 分 成 p 个 大 致 相等 的 部 分 。 因 此 ， 以 前 的 算法 对 于 短 
消息 来 说 仍然 有 用 。 把 本 节 讨 论 的 算法 与 本 章 前 面 讨论 的 相同 操作 的 算法 进行 比较 就 会 发 现 ， 
当 消 息 被 划分 以 后 ， 与 : 有 关 的 项 增加 ， 而 与 有 关 的 项 减少 。 因 此 ， 依 赖 于 4 、 和 p 的 实际 
值 ， 消 息 的 大 小 m 存 在 一 个 截止 值 ， 只 有 当 消息 长 度 大 于 截止 值 时 才 可 以 从 本 节 的 算法 中 获 益 。 


1. 一 对 多 广播 、 

下 面 考虑 在 p 市 点 的 网 络 中 ， 从 源 节 点 向 所 有 节点 广播 一 个 大 小 为 m 的 消息 M。 如 果 m 大 到 
可 以 把 消息 村 划分 成 p 部 分 Mo。，MM1，... , M,-1!， 每 部 分 的 大 小 为 m/p， 则 每 个 散发 操作 (4.4 节 ) 就 
可 以 在 时 间 t log p + tm/p)(p-1) 内 把 消息 Mi 放 到 节点 中。 注意 一 对 多 广播 要 求 的 结果 就 是 把 
消息 M = Mo U M1 U … U M,-! 发 送 到 所 有 的 节点 上 。 这 可 以 通过 在 散发 操作 后 对 驻 留 在 各 个 节 
所 上 的 大 小 为 mp 的 消息 进行 一 次 多 对 多 广播 来 实现 。 在 超 立 方 体 上 ， 这 个 多 对 多 广播 可 以 在 
时 间 t,log p + tm/p)(p~1) 内 完成 。 因 此 ， 在 超 立 方 体 上 ， 一 对 多 广播 可 以 在 以 下 时 间 内 完成 : 


T = 2x(fliogp 二 如 (一 D)) 


法 2 x (tlogp + twm) (4-13) 
与 公式 (4-1) 比 较 ， 这 个 算法 的 启动 成 本 是 公式 (4-1) 中 的 两 倍 ， 但 与 ,项 有 关 的 成 本 下 降 
(log p)/2 倍 。 同 样 ， 在 线性 阵列 和 格 网 互连网 络 中 ， 一 对 多 广播 也 能 改进 性 能 。 
2. 多 对 一 归 约 
多 对 一 归 约 是 一 对 多 广播 的 对 偶 。 因 此 ， 通 过 反 转 一 对 多 广播 的 通信 方向 和 顺序 ， 就 可 
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以 得 到 多 对 一 归 约 的 算法 。 上 面 我 们 说 明了 如 何 通过 先进 行 一 次 散发 再 进行 一 次 多 对 多 广播 
获得 一 个 优化 的 一 对 多 广播 算法 的 过 程 。 因 此 ， 利 用 对 偶 性 概念 ， 我 们 应 该 也 可 以 先进 行 一 
次 多 对 多 归 约 《多 对 多 广播 的 对 偶 ) ， 再 进行 一 次 收集 操作 〈 散 发 的 对 偶 ),' 来 实现 多 对 一 归 
约 。 我 们 把 这 样 一 个 算法 的 细 广 留 给 读者 作为 练习 (习题 4.17)。 


3. 全 归 约 

由 于 全 归 约 操作 在 语义 上 等 价 于 一 个 多 对 一 归 约 操作 加 上 一 个 一 对 多 广播 操作 ， 所 以 ， 
上 述 两 个 操作 的 新 近 最 优 算法 可 以 用 于 构建 侈 归 约 的 一 个 类 似 的 算法 。 把 多 对 一 归 约 操作 和 
一 对 多 广播 操作 分 割 成 它们 的 组 件 操作 ， 可 以 看 出 ， 全 归 约 操作 可 以 通过 进行 一 个 多 对 多 归 
约 操作 加 上 一 个 收集 操作 ， 再 加 上 一 个 散发 操作 和 一 个 多 对 多 广播 操作 来 完成 。 由 于 中 间 的 
收集 和 散发 操作 将 抵消 相互 的 作用 ， 所 以 全 归 约 操作 正好 要 求 一 个 多 对 多 归 约 操作 和 一 个 多 
对 多 广播 操作 。 首 先 ， 多 对 多 由 约 扫 代 拉扯 红 在 寺 全 下 全 庆生 各 为 
字 的 部 分 。 接 着 ， 再 用 多 对 多 归 约 操作 把 疡 上 的 所 有 第 ;个 部 分 合并 。 在 这 个 步骤 后 ， 每 个 节 
扩 留 下 一 个 最 后 结果 的 大 小 为 m/p 字 的 部 分 。 用 一 个 多 对 多 广播 提 作 可 以 构建 每 个 节点 上 这 上 
部 分 的 连接 。 

Pp 市 扩 超 立方 体 互连网 络 允 许 对 大 小 为 m/p 字 的 消息 进行 多 对 一 归 约 操作 和 一 对 多 广播 操 
作 ， 每 个 操作 花费 的 时 间 为 ;log p + (m/lp)(p-1)。 因 此 ， 全 归 约 操作 可 在 以 下 时 间 内 完成 : 


7 = 2x (islogp + twlp — 1)=) 
污 2 x (ts logp + twim) (4-14) 


4.7.2 全 端口 通信 


在 并 行 体系 结构 中 ， 一 个 节点 可 以 有 多 个 通信 端口 和 链 路 与 其 他 节点 通信 。 例 如 ， 二 维 
环绕 格 网 中 的 每 个 节点 有 4 个 端口 ，d 维 超 立 方 体 的 每 个 节点 有 d 个 端口 。 本 书 中 ， 我 们 一 般 假 
设 使 用 单 端 口 通信 (single-port communication) 模型 。 在 单 端口 通信 中 ， 一 个 节点 一 次 只 能 
在 它 的 端口 之 一 发 送 数据 。 同样 ， 一 个 节点 一 次 只 能 在 一 个 端口 上 接收 数据 。 但 是 ， 一 个 节 
点 可 以 在 同一 端口 或 者 不 同 端口 同时 接收 和 发 送 数 据 。 与 单 端 口 模式 不 同 ， 全 端口 通信 (all- 
port communication ) 模型 允许 一 个 节点 在 和 它 相 连 的 多 条 通道 上 同时 通信 。 

在 全 端口 通信 的 p 节 点 的 超 立 方 体 中 ， 一 对 多 广播 和 多 对 一 广播 以 及 私自 通信 时 间 表 达 式 
中 , 心 的 系数 比 它们 在 单 端口 通信 中 的 对 应 部 分 小 log p 倍 。 由 于 在 线性 阵列 或 格 网 中 ， 每 个 
节点 的 通道 数 是 一 个 常数 ， 这 两 种 结构 的 全 端口 通信 不 能 给 通信 时 间 提供 任何 渐 近 提高 。 

尽管 有 明显 的 加 速 ， 但 是 全 端口 通信 模型 存在 某 些 局 限 。 例 如 ， 全 端口 通信 模型 不 仅 难 
于 编程 ， 而 且 还 要 求 消息 大 到 可 以 分 裂 成 许多 部 分 ， 使 其 在 不 同 通道 之 间 有 效 地 传送 。 在 一 
些 并 行 算法 中 ， 消 息 增 大 意味 着 节点 中 计算 粒度 也 变 大 。 当 节点 处 理 大 数据 集 时 ， 如 果 算 法 
的 计算 复杂 度 高 于 通信 复杂 度 ， 那 么 节点 间 的 通信 时 间 将 主要 是 计算 时 间 。 例 如 ， 在 和 矩阵 相 
乘 中 ， 对 于 节点 间 传 送 的 刁 字 的 数据 有 情 次 计算 。 如 果 通 信 时 间 在 整个 并 行 运行 时 间 内 只 是 一 
小 部 分 ， 那 么 ， 使 用 非常 复杂 的 技术 来 改进 通信 对 整个 并 行 算法 的 运行 时 间 就 没有 什么 意义 ， 

全 端口 通信 的 另外 一 个 局 限 ， 是 只 有 把 它 需 要 的 所 有 数据 取出 来 并 存储 在 内 存 中 ， 存 取 
速度 要 快 到 足以 支持 并 行 通 信 ， 这 时 通信 才 是 有 效 的 。 例 如 ， 为 了 在 一 个 p 节 点 超 立 方 体 上 有 
效 地 利用 全 端口 通信 ， 内 存 带 宽 必 须 比 单 通道 通信 带宽 至 少 大 log p 倍 ; 也 就 是 说 ， 内 存 带 宽 
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必须 随 着 节点 数 的 增加 而 增加 ， 以 支持 全 端口 的 同时 通信 。 一 些 现代 的 并 行 计 算 机 ， 如 IBM 
SP， 对 于 这 个 问题 有 比较 自然 的 解决 方法 。 分布 式 内 存 并 行 计 算 机 的 每 一 个 节点 是 一 个 
NUMA 共 享 内 存 的 多 处 理 机 。 如 果 发 送 或 者 接收 数据 的 缓冲 区 能 被 正确 地 置 于 不 同 的 存储 区 ， 
那么 就 通过 单独 存储 区 和 全 存储 器 提供 多 端口 服务 ， 并 且 能 够 利用 通信 带宽 。 


4.8 小 结 


表 4-1 中 汇总 本 章 中 讨论 的 各 种 聚合 通信 操作 的 通信 时 间 。 其 中 ， 一 对 多 广播 、 多 对 一 归 
约 以 及 全 妇 约 操作 的 时 间 是 两 种 表达 式 中 的 最 小 值 。 这 是 因为 ， 这 些 通信 操作 的 时 间 取 决 于 
通信 消息 的 大 小 m， 或 许 4.1 和 4.3 节 中 讲述 的 算法 更 快 ， 也 可 能 是 4.7 节 中 讲述 的 算法 更 快 。 表 
4-1 假 定 选择 的 是 最 适合 于 给 定 消息 大 小 的 算法 。 表 4-1 中 的 通信 时 间 表 达 式 是 从 本 章 前 面 几 节 
采用 直通 路 由 选择 的 超 立 方 体 网 络 环境 中 推导 的 。 然 而 ， 凡 是 截面 带宽 为 6(p) 的 体系 结构 
(2.4.4 节 ) ， 这 些 表达 式 及 相应 的 算法 是 合法 的 。 事 实 上 ， 除 了 多 对 多 私自 通信 和 循环 移 位 ， 
表 4-1 中 列举 的 所 有 通信 操作 表达 式 中 ， 与 6。 有 关 的 项 保持 不 变 ， 即 使 在 环 和 格 网 网 络 (或 任 
何 k-d 格 网 网 络 ) 也 是 如 此 ， 只 要 逻辑 进程 能 正确 地 映射 到 网 络 的 物理 节点 。 假 设 采 用 从 进程 
到 节点 的 最 优 映射 ， 在 表 4-1 第 二 列 给 出 的 时 间 内 ， 表 4-1 最 后 一 列 给 出 完成 一 个 操作 所 需 的 渐 
近 截 面 带 宽 。 对 于 大 消息 来 说 ， 只 有 多 对 多 私自 通信 和 循环 移 位 需要 全 部 B(p) 截 面 带 宽 。 因 
此 ， 如 2.5.1 节 的 讨论 ， 当 截面 带宽 较 小 的 网 络 应 用 这 些 操作 的 时 间 表 达 式 时 ，t 项 必须 反映 
有 效 带 宽 。 例如，p 节 点 方形 格 网 的 对 分 带宽 是 B(Vp)， 而 p 节 点 环 的 对 分 带宽 是 B(1)。 因 此 ， 
在 方形 格 网 中 执行 多 对 多 私自 通信 时 ， 每 字 传 送 的 有 效 时 间 将 是 每 条 链 路 的 +, 的 B(VP) 倍 ， 
而 在 环 中 ， 它 应 该 是 每 条 链 路 的 + 的 B@(p) 倍 。 


表 4-1 4.1 ~ 4.7 节 中 讨论 的 超 立方 体 互连网 络 中 的 各 种 操作 的 通信 时间 汇总 ，。 
每 种 操作 的 消息 大 小 为 m， 节 点 数 为 p 
操 ” 作 通信 时间 带宽 需求 


一 对 多 广播 ， 多 对 一 归 约 min((t, + 1, m)log p, 2(1, log p + £m)) 8(1) 
多 对 多 广播 ， 多 对 多 归 约 tlog p+t,m(p—1) 8(1) 
全 归 约 min((t, + t, m)log p, 2(t, Jog p + tm) 8(1) 
散发 ， 收 集 tlogp +t,m(p-1) 8(1) : 
多 对 多 私自 (t+ t, mMp-1) 8(p) 
循 坏 移 位 t+ l,m 80p) 





表 4-2 ”本章 中 讨论 的 通信 操作 的 MPI 名 称 





操作 MPI 名 称 
一 对 多 广播 MPIE Becast 
多 对 一 归 约 MPI _ Reduce 
多 对 多 广播 MPI_Allgather 
多 对 多 归 约 MP1_Reduce_scatter 
全 归 约 MPI_Allreduce 
收集 MPE_ Gather 
散发 MPI_ Scatter 
多 对 多 私自 通信 MPI_Alltoall 


se 
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在 许多 并 行 算法 中 ， 能 经 常 看 到 本 章 中 讨论 的 聚合 通信 和 操作。 为 了 使 有 效 的 并 行程 序 
快速 和 更 具 可 移植 性 ， 绝 大 多 数 并 行 计算 机 厂商 都 为 执 # 六 此 林 信 通信 提 作 提供 预先 打包 的 
人 这 些 通 信 操 作 的 最 常用 的 标准 API 称 为 消息 传递 接口 (Message Passing Interface), 或 

。 表 4-2 给 出 本 章 中 描述 的 通信 操作 对 应 的 MPI 函 数 名 称 。 


4.9 书目 评注 


这 一 章 我 们 讨论 了 线性 阵列 、 格 网 以 及 超 立 方 体 互 连 拓扑 结构 中 的 各 种 数据 通信 操作 。 
Saad 和 Schuitz[fSS89b] 讨 论 在 这 些 结构 以 及 其 他 一 些 结构 (如 共享 内 存 和 开关 或 者 总 线 互 连 的 
结构 ) 中 ， 这 些 操作 的 实现 问题 。 大 部 分 并 行 计 算 机 厂商 为 进程 间 用 消息 传递 通信 提供 标准 
的 API。 两 个 最 常见 的 API 是 消息 传递 接口 (MPDESOHL+96] 和 并 行 虚 拟 机 (PVM)[GBD+94]。 

在 一 些 其 他 连接 较 少 的 网 络 结构 中 ， 如 果 这 些 结构 支持 直通 路 由 选择 ， 则 通信 操作 的 超 
立方 体 算 法 通常 也 是 这 些 网 络 中 的 最 好 算法 。 由 于 超 立 方 体 结构 的 通用 性 以 及 超 立 方 体 算法 
的 广泛 应 用 ， 人 们 已 做 了 大 量 的 工作 ， 用 于 在 超 立 方 体 中 实现 多 种 通信 操作 [BOS+91, BR90， 
BT97, FF86, JH89, Joh90, MdV87, RS90b, SS89a, SW87], Sadd 和 Schultz[SS88] 描 述 用 来 推导 
各 种 通信 操作 算法 的 超 立 方 体 网 络 的 特性 。 

Boppana 和 Raghavendra[BR90]、Johnsson 和 Ho[JH91]， Seidel{Sei89] 以 及 Take[Tak87] 特 
别 分 析 了 超 立 方 体 结构 中 的 多 对 多 私自 通信 问题 。 Nugent[Nug88] 描 述 算法 4- 10 中 多 对 多 私自 

通信 时 保证 无 拥塞 通信 的 E 立 方 体 路 由 选择 。 

Ranka 和 Sahni[RS90b] 描 述 4.3 节 中 的 全 归 约 和 前 绎 和 操作 算法 。 本 书 中 讨论 的 循环 移 位 操 
作 改 自 Bertsekas 和 Tsitsiklis{[BT97]。 一 般 形式 的 前 缓和， 通常 称 为 扫描 ， 常 被 研究 人 员 用 在 
数据 并 行程 序 设 计 中 作为 基本 原 语 。Blelloch[Ble90] 定 义 扫描 向 量 模 型 (scan vector model)， 
并 且 描 述 如 何 用 原始 的 扫描 原 语 以 及 它 的 变形 来 表示 各 种 并 行程 序 。 

-一 对 多 广 播 的 超 立 方 体 算法 用 到 Bertsekas 和 Tsitsiklis[BT97] 以 及 Johnsson 和 Ho[JH89] 中 描 
述 的 生成 二 项 式 树 。 在 4.7.1 节 中 描述 的 生成 树 算法 中 ， 为 了 简化 算法 的 表现 形式 ， 我 们 把 mn 
字 的 消息 划分 成 大 小 为 m/log p 的 log p 个 部 分 进行 广播 。Johnsson 和 Ho{JH89] 说 明 每 部 分 的 最 
优 大 小 为 [Yim/t,logp] 。 在 这 种 情况 下 ， 消 息 的 个 数 可 能 会 大 于 log p。 这 些 更 小 的 消息 从 生 
成 二 项 式 树 的 根 节 点 以 循环 的 方式 发 往 它 的 log p 个 子 树 。 使 用 这 种 策略 ，p 节 点 超 立 方 体 上 的 
一 对 多 广播 可 以 在 4.logp+tm+24, [Vim/i,logp]logp 时 间 内 完成 。 

Bertsekas 和 和 Tsitsiklis[BT97]， Johnsson 和 Ho[JH89]， Ho 和 JohnssonfHJ87] ，Saad 和 
Schultz[SS89a] 以 及 Stout 和 Wagar[SW87] 中 描述 在 超 立 方 体 结构 中 采用 全 端口 通信 模型 的 各 种 
通信 操作 算法 。Johnsson 和 Ho[JH89j 中 说 明 在 采用 全 端口 通信 的 p 节 点 超 立 方 体 上 ， 在 一 对 多 
广播 、 多 对 多 广播 以 及 私自 通信 的 通信 时 间 表达 式 中 ，z, 的 系数 比 单 端口 通信 中 的 对 应 部 分 
小 log p 倍 。Gupta 和 Kumar[GK91] 说 明 在 并 行 结 构 中 ， 全 端口 通信 可 能 不 会 比 单 端口 通信 更 能 
提高 算法 的 可 扩展 性 。 

企 并 行 应 用 程序 中 ， 还 用 到 其 他 一 些 本 章 中 未 讲 到 的 基本 通信 操作 。 文献 中 提 到 了 许多 
其 他 用 于 并 行 计算 机 的 有 用 操作 ， 其 中 包括 选择 [Ak189]， 指针 跳 转 [HS86, Jaj92] ，BPC 置 换 
[Joh90, RS90b]， 取 数 并 操作 [GGK+83] ， 打 包 [Lev87, Sch80]， 位 取 反 [Loa92] ， 以 及 键 挖 扫描 
或 多 前 级 [Ble90, Ran89]。 

有 时 数据 通信 并 不 遵循 任何 预先 定义 的 模式 ， 而 是 任意 的 ， 根据 其 应 用 的 情况 来 选择 。 
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此 有 时， 过 分 简单 地 沿 源 节 点 和 目标 凶 点 间 的 最 短 数据 路 径 选 择 消 息 的 路 由 ， 将 导致 争 用 和 不 
均衡 的 通信 。Leighton，Maggs 和 Rao[LMR88]，vValiantfVal82] 以 及 Valiant 和 Brebner[VB81I] 讨 
论 任意 消息 置换 中 有 效 的 路 由 选择 方法 。 


习题 


4.1 修改 算法 4-1、4-2 和 4-3， 使 它们 适用 于 任意 数目 的 进程 而 不 只 是 2 的 乘 逢 的 进程 。 

4.2 4.1 市 中 提出 一 对 多 广播 的 递归 加 倍 算法 ， 它 适用 于 三 种 网 络 ( 环 、 格 网 、 超 立方 体 )。 
注意 在 图 4-6 中 的 超 立 方 体 算法 中 ， 消 息 首先 沿 最 高 维 发 送 ， 然 后 再 发 送 给 较 低 的 维 (在 算法 
4-1 的 第 4 行 中 ，i 从 d~1 减 少 到 0 )。 同 样 的 算法 可 以 用 于 格 网 和 环 中 ， 并 保证 在 不 同时 间 步 中 
发 送 的 消息 间 不 会 相互 干扰 。 

现在 修改 算法 ， 使 得 宵 息 首 先 沿 最 低 维 发 送 ( 即 在 算法 3- 1 的 第 4 行 中 ，i 从 0 增加 到 d-1 )。 
所 以 在 第 一 步 ， 处 理 器 0 将 和 处 理 器 1 通信 ; 在 第 二 步 ， 处 理 器 0 和 1 将 分 别 与 处 理 器 2 和 3 通 
信 ; 依次 类 推 。 

1 ) 这 个 修改 后 的 算法 在 超 立 方 体 上 的 运行 时 间 是 多 少 ? 
2) 这 个 修改 后 的 算法 在 环 上 的 运行 时 间 是 多 少 ? 

对 于 这 些 推导 ， 如 果 k 个 消息 必须 在 同一 时 间 内 通过 同一 条 链 路 ， 那 么 可 以 假设 这 些 消息 
的 有 效 每 字 传送 时 间 为 ki 。 : 

4.3 在 环 中 ， 多 对 多 广播 有 丙种 不 同 的 实现 方法 : a) 图 4-9 中 所 示 的 标准 环 算 法 ，b) 图 
4-11 中 所 示 的 超 立 方 体 算法 。 

1 ) 方法 a) 的 运行 时 间 是 多 少 ? 

2) 方法 b) 的 运行 时 间 是 多 少 ? 

. 如 果 k 个 消息 必须 在 同一 时 间 通 过 同一 链 路 ， 那么 假定 这 些 消 息 的 有 效 每 字 传 送 时 间 为 kt 。 
同时 假定 tf; = 100 x 

1) 如 果 消 息 m 非 常 大 ， 那么 上 面 a) 和 b) 两 种 算法 中 哪个 更 好 ? 

2) 如 果 消 息 m 非 常 小 (可 能 是 一 个 字 )，、 那 么 哪个 算法 更 好 ? 

4.4 根据 算法 4-6 写 一 个 在 格 网 中 进行 多 对 多 归 约 的 过 程 。 

4.5 ( 树 中 的 多 对 多 广播 操作 ) 给 定 如 图 4-7 所 示 的 平衡 二 又 树 ， 描 述 一 个 实现 多 对 多 广 
播 的 过 程 ， 完 成 p 节 点 上 m 字 消息 的 通信 和 耗费 时 间 (t,+ tmp/2)iog P。 假 设 只 有 树 的 叶子 包含 季 
尽 ， 并 且 如 果 通 信和 通道 (或 部 分 通道 ) 由 个 同时 传播 的 消息 共享 ， 那 么 在 通过 双向 通道 连接 
的 任意 两 个 节点 间 ， 交 换 两 个 m 字 消息 的 时 间 为 上 + tmk。 

4.6 考虑 全 归 约 操作 中 ， 其 中 每 个 处 理 器 开始 时 有 一 个 m 字 的 数组 ， 并 且 需 要 得 到 每 个 处 
理 器 的 数组 中 各 自 的 字 的 全 局 和 。 在 环 上 实现 这 一 操作 有 下 面 三 种 选择 : 

3 先进 行 所 有 数组 的 多 对 多 广播 ， 再 在 本 地 对 数组 中 每 个 元 素 求 和 。 
i) 先 在 单 证 点 上 累积 数组 的 元 素 ， 然 后 对 结果 数组 进行 一 次 一 对 多 广播 。 z 
ii) 使 用 多 对 多 广播 模式 的 一 个 算法 ， 但 只 是 简单 地 进行 加 法 操作 而 不 对 消息 进行 链接 。 
1) 对 上 述 的 每 一 种 情况 ， 计 算 用 m、t, 和 ,表示 的 运行 时 间 。 
2) 假设 大 100， fr =1， 并 且 mm 非 常 大 。 上 述 三 种 选择 (Gi)、( 记 或 Gii)) 中 哪 一 种 更 好 ? 
3) 假设 = 100，m =1， 并 且 m 非 常 小 (例如 m 为 1 )。 上 述 三 种 选择 (i)、ii) 或 iii)) 中 哪 
一 种 更 好 ? : 
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4.7 (线性 阵列 和 格 网 上 的 一 对 多 私自 通信 ) 在 线性 阵列 和 格 网 结构 中 ， 给 出 p 个 节点 上 
m 字 消息 的 一 对 多 私自 通信 的 过 程 以 及 它们 的 通信 和 时间。 

提示 : 对 于 格 网 来 说 ， 算 法 像 通常 那样 分 两 阶段 进行 ， 开 始 时 ， 源 节点 在 它 行 上 的 VP 个 
节点 间 分 布 大 小 为 mp 字 的 消息 ， 使 得 每 个 节点 接收 的 数据 对 应 源 节点 列 上 的 所 有 Vp 个 节 
点 。 

4.8 (多 对 多 归 约 ) 多 对 多 广播 的 对 偶 是 多 对 多 归 约 。 在 多 对 多 归 约 中 ， 每 个 节点 是 一 个 
多 对 一 归 约 的 目标 节点 。 例 如 ， 考 虑 p 个 节点 的 情况 ， 其 中 每 个 节点 有 一 个 p 个 元 素 向 量 ， 第 ; 
个 节点 (对 所 有 的 i,，0<i < p) 将 得 到 所 有 向 量 中 第 i 个 元 素 的 和 。 描 述 一 个 在 超 立 方 体 上 进行 
多 对 多 妇 约 操作 的 算法 ， 其 中 以 加 法 作为 结合 操作 符 。 如 果 每 个 消息 包含 m 个 字 ， 并 且 执 行 一 
次 加 法 操作 的 时 间 为 fs ， 那 么 你 的 算法 所 需 的 时 间 是 多 少 ( 用 m，p，twwa ，t; 和 i, 表示 ) ? 

提示 : 在 多 对 多 广播 中 ， 每 个 节点 都 从 一 个 消息 开始 ， 操 作 结 束 时 将 收集 到 p 个 这 样 的 消 
息 。 在 多 对 多 妇 约 中 ， 每 个 节点 从 p 个 不 同 的 消息 开始 (每 个 对 应 不 同 的 节点 )， 但 操作 结束 
时 每 个 节点 上 只 有 一 个 消息 。 

4.9 图 4-21 的 c)、e) 和 f) 部 分 表明 ， 对 于 三 维 超 立 方 体 中 的 任何 一 个 节点 ， 恰 好 有 3 个 
节点 离 此 节点 的 最 短 距 离 为 两 条 链 路 。 请 推导 在 p 节 点 超 立 方 体 中 ， 离 任意 一 个 给 定 节点 的 最 
短 距 离 为 ! 的 节点 数目 的 表达 式 (用 p 和 i! 表示 )。 

4.10 请 给 出 计算 "个 数 的 前 缀 和 的 超 立 方 体 算法 ， 其 中 p 是 节点 数 而 n/p 是 大 于 1 的 整数 。 
假设 两 个 数 相 加 的 时 间 为 ws ， 而 在 两 个 直接 连接 的 节点 间 发 送 一 个 单位 长 讼 消息 的 时 间 为 1 ， 
请 给 出 算法 花费 的 总 时 间 表 达 式 。 

4.11 如 果 消 息 的 启动 时 间 # 为 零 ， 请 证 明 Jp x Vp 格 网 上 的 多 对 多 私自 通信 花费 时 间 的 表 
达 式 Kmp(Vp -D ， 在 一 个 较 小 (< 4) 的 常数 因子 内 是 最 优 的 。 

4.12 ”修改 4.1 ~ 4.5 节 中 讨论 的 线性 阵列 和 格 网 算法 ， 使 它们 能 用 于 无 端 对 端 环 绕 连 接 的 
网 络 中 。 对 比 修改 后 的 算法 和 原 算法 的 通信 时 间 。 在 线性 阵列 或 者 格 网 中 ， 对 于 任何 操作 ， 
时 间 增 加 的 最 大 因子 是 多 少 ? 

4.13 (3-D 格 网 ) 在 p 个 节点 的 用 存储 转发 路 由 选择 的 pl2 x pa x pw 三 维 格 网 中 ， 给 出 一 
对 多 广播 、 多 对 多 广播 以 及 私自 通信 的 最 优 算法 (在 一 个 小 的 常数 内 )， 并 推导 这 些 过 程 总 的 通 
信 时 间 表 达 式 。 

4.14 ”假设 建立 一 个 p 个 节点 的 并 行 计算 机 的 成 本 和 它 内 部 的 通信 和 链 路 总 数 成 正比 。 令 一 
种 体系 结构 的 成 本 效率 反比 于 这 种 结构 的 p 节 点 成 本 和 其 中 某 一 操作 的 通信 时 间 的 乘积 。 假 设 
上 为 零 ， 那 么 ， 对 本 章 中 讨论 的 每 种 操作 ， 标 准 3-D 格 网 或 稀疏 3-D 格 网 中 哪 种 结构 的 成 本 效 
率 更 高 ? 

4.15” 当 1 为 非 零 常数 而 1,。 = 0 时 ， 重 做 习题 4.14。 在 这 种 通信 模型 下 , 两 个 直接 相连 节点 
间 的 消息 传送 时 间 为 国定 值 ， 与 消息 大 小 无 关 。 此 外 ， 如 果 把 两 个 包 组 合 起 来 作为 一 个 消息 
发 送 ， 则 通信 延迟 依然 是 上 。 

4.16 (k 对 多 广播 ) 令 K 对 多 广播 是 个 节点 同时 进行 消息 大 小 为 m 字 的 一 对 多 广播 的 操作 ， 
请 给 出 在 p 节 点 超 立 方 体 上 花费 时 间 为 slog p + rm (k log (p/k) + -1) 的 kK 对 多 广播 的 一 个 算 
法 。 假 设 m 字 的 消息 不 能 被 再 划分 ，k 是 2 的 乱 ， 并 且 1<k<p。 

4.17 ”在 p 节 点 超 立 方 体 上 进行 多 对 一 归 约 操 作 时 ， 可 通过 把 大 小 为 m 的 原始 消息 划分 成 p 
个 大 小 为 mp 的 几乎 相等 的 部 分 ， 使 得 操作 的 时 间 为 2(t log p + twm(p-1)/p)， 请 给 出 这 个 操作 





的 一 个 算法 的 详细 描述 。 

4.18 ”如 果 消 息 可 以 被 划分 ， 且 划分 后 的 部 分 可 以 独立 地 进行 路 由 选择 ， 试 推导 一 个 对 
多 广播 算法 ， 使 得 其 通信 时 间 小 于 习题 4.16 中 p 节 点 超 立 方 体 算法 的 通信 时间。 

4.19 ” 试 证 明 ， 如 果 m>p， 那 么 在 p 节 点 的 超 立 方 体 中 ， 消 息 大 小 为 m 的 多 对 一 归 约 操作 
可 以 在 时 间 2(4log p+ tm) 内 完成 。 

提示 : 将 多 对 一 归 约 表述 成 多 对 多 归 约 和 收集 的 结合 。 

4.20 (k 对 多 私自 通信 ) 在 k 对 多 私自 通信 中 ，k 个 节点 同时 执行 p 节 点 结构 中 每 个 包 大 小 
为 m 的 一 对 多 私自 通信 (1 <k<p)。 证 明 : 如 果 帮 是 2 的 过， 那么 这 个 操作 可 以 在 超 立 方 体 上 执 
行 ， 执 行 时 间 为 1; (og(p/K) + Kk-1) + tm(p—1)。 


4.21 假定 在 节点 的 本 地 内 存 中 ， 对 单字 数据 执行 一 次 读 写 操作 的 时 间 是 上 ， 证 明 在 p 节 


点 格 网 (4.5.2 节 ) 上 的 多 对 多 私自 通信 中 ， 花 费 在 节点 上 内 部 数据 转移 的 总 时 间 是 rmp， 其 
中 必 是 单个 消息 的 大 小 。 
提示 : 内 部 数据 转移 等 价 于 转 置 大 小 为 m 的 消息 的 Vp x \ 万 数组 。 

4.22 ”证 明 在 p 节 点 的 超 立 方 体 上 ， 如 果 使 用 E 立 方 体 路 由 选择 (4.5 节 )， 循 环 g 移 位 的 所 
有 Pp 条 数据 路 径 是 无 拥塞 的 。 

提示 : 1) 如 果 g > p/2、 那 么 p 节 点 超 立 方 体 上 的 q 移 位 和 (p-gq) 移 位 同 构 。2) 在 超 立方 体 
上 ， 用 归纳 法 证 明 : 如 果 p 节 点 超 立方 体 上 的 g 移 位 (1 <g < p) 的 所 有 路 径 是 无 拥塞 的 ， 那 么 对 
于 2p 个 节点 的 超 立 方 体 ， 所 有 这 些 路 径 也 是 无 拥塞 的 。 

4.23 ”证 明 : 在 p 个 节点 的 超 立 方 体 上 ， 循 环 4 移 位 的 任何 消息 ， 其 最 长 路 径 长 度 为 log p- 
”(g)， 其 中 y(9) 是 9 可 以 被 2 整除 的 最 大 整数 /。 

提示 : 1) 在 p 个 节点 的 超 立 方 体 上 ， 如 果 g = p/2， 那 么 y (g) = log p-1。2) 在 超 立 方 体 上 
用 归纳 法 证 明 ， 对 于 给 定 的 4，y (4) 随 着 每 次 节点 数目 加 倍 而 增加 1。 z 

4.24 推导 以 下 超 立 方 体 算法 的 并 行 运行 时 间 表达 式 ， 一 对 多 广播 ， 多 对 多 广播 ， 一 对 多 
私自 通信 ， 以 及 多 对 多 私自 通信 。 这 些 算法 是 不 改变 同样 通信 和 链 路 (同样 的 通道 宽度 和 通道 
速度 ) 的 格 网 时 改写 而 来 的 。 将 这 些 改 写 后 的 算法 性 能 与 最 好 的 格 网 算法 性 能 相 比 较 。 

4.25 ”如 2.4.4 节 所 述 ， 网 络 成 本 有 两 种 通用 的 度量 : 1) 并 行 计算 机 中 的 线路 数目 〈 它 是 
通信 链 路 和 通道 带宽 的 乘积 ) ; 2) 对 分 带宽 。 考 虑 每 个 链 路 的 通道 带宽 为 1 的 超 立方 体 ， 即 1。 
= 1。 如 果 节点 数目 和 成 本 相同 ， 那 么 格 网 连接 计算 机 的 通道 带宽 较 高 ， 它 由 所 使 用 的 成 本 度 
量 决定 。 令 s 和 s" 代 表 两 个 与 成 本 度量 相对 应 格 网 的 通道 带宽 增加 因子 。 试 求 出 s: 和 s" 的 值 ， 并 
用 这 些 值 导出 在 格 网 上 下 列 操作 的 通信 时 间 : 

1) 一 对 多 广播 。 

2) 多 对 多 广播 。 

3) 一 对 多 私自 通信 。 

4) 多 对 多 私自 通信 。 

将 这 些 时 间 与 在 超 立 方 体 上 有 同样 成 本 的 相同 操作 所 用 的 时 间 进 行 比较 。 

4.26 ”考虑 p 个 节点 的 全 连接 网 络 。 请 根据 习题 4.25 中 的 4 个 通信 操作 ， 推 导 在 完全 连接 网 
络 上 超 立 方 体 算法 的 并 行 运行 时 间 表 达 式 。 讨 论 增加 网 络 连 接 对 于 提高 这 些 操作 的 性 能 有 什 
么 影响 。 
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一 个 串 行 算法 的 优 劣 通常 按 其 执行 时 间 来 评估 ， 并 表示 为 其 输入 数据 大 小 的 函数 。 一 个 
并 行 算法 的 执行 时 间 不 仅 依 赖 于 输入 数据 大 小 ， 还 依赖 于 所 用 的 处 理 器 的 数目 ， 及 它们 相关 
的 计算 速度 和 进程 间 的 通信 速度 。 因 此 ， 并 行 算法 不 可 能 在 精度 方面 毫 无 损失 地 根据 并 行 
系 结构 孤立 地 进行 评估 。 并 行 系统 (parallel system) 是 算法 和 并 行 体系 结构 的 组 合 且 在 这 个 
并 行 体 系 结构 上 实现 算法 。 本 章 我 们 研究 评估 并 行 系统 性 能 的 各 种 度量 。 

很 多 性 能 评测 方法 是 直观 的 。 其 中 最 简单 的 是 在 给 定 并 行 平 台 上 求解 给 定 问 题 所 花费 的 
挂钟 时 间 。 但 是 ， 正 如 我 们 将 要 看 到 的 ， 这 种 单一 性 能 特征 不 能 外 推 到 其 他 问题 实例 中 或 更 
大 的 机 器 结构 中 。 其 他 直观 的 方法 是 量化 并 行 性 的 效益 ， 即 并 行程 序 比 串 行 程序 运算 快 多 少 。 
然而 ， 除 以 上 提 到 的 那些 外 ， 这 种 特性 还 有 其 他 的 缺陷 。 例 如 使 用 一 个 更 适合 于 并 行 处 理 的 
较 差 的 串 行 算法 有 什么 影响 ?” 由 于 这 些 原 因 ， 人 们 需要 将 更 复杂 的 评测 方法 推广 到 结构 更 大 
的 计算 机 结构 或 问题 中 。 基 于 这 些 目标 ， 本 章 重 点 讨论 量化 并 行程 序 的 性 能 。 


5.1 并 行程 序 中 的 开销 来 源 


如 果 使 用 多 达 两 倍 的 硬件 资源 ， 自 然 指望 使 一 个 程序 运行 快 两 倍 。 然 而 ， 在 典型 的 并 行 
程序 中 ， 由 于 涉及 并 行 化 的 各 种 开销 ， 这 是 非常 少 有 的 情况 。 对 这 些 开销 精确 量化 是 理解 并 
行程 序 性 能 的 关键 。 

图 $-1 说 明 一 个 并 行程 序 的 典型 运行 过 程 。 除 进行 基本 的 计算 ( 即 对 求解 相同 问题 实例 进 
行 的 串 行 程序 计算 ) 外 ， 并 行程 序 还 在 进程 间 通 信 、 空 闲 以 及 额外 计算 (在 串 行 形式 中 不 进 
行 的 计算 ) 中 花费 时 间 。 


执行 时 间 





国 基本 /额外 计算 园 进程 间 通 信 
D] 空闲 
. 图 5-1 在 8 个 处 理 右 上 执行 的 一 个 假想 并 行程 序 的 执行 图 。 本 图 表示 
执行 计算 (基本 的 和 额外 的 )、 通 信和 空闲 时 花费 的 时 间 
进程 间 的 交互 ”任何 非 平 几 的 并 行 系统 都 要 求 其 处 理 器 交互 和 传送 数据 ( 如 中 间 结 果 )。 
这 种 花费 在 处 理 器 间 数 据 通信 的 时 间 通 常 是 并 行 处 理 开 销 最 重要 的 来 源 。 
空闲 由 于 很 多 原因 ， 如 负载 不 平衡 、 同 步 及 程序 中 串 行 部 分 的 出 现 ， 处 理 器 在 并 行 系统 
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中 可 能 成 为 空间 。 在 许多 并 行 应 用 中 (如 任务 的 动态 生成 ) 预测 分 配给 各 个 处 理 器 的 子 任务 
大 小 是 不 可 能 的 (或 至 少 是 困难 的 )。 因 此 当 维持 均衡 工作 负载 时 ， 在 处 理 器 中 ， 问 题 不 可 能 
静态 地 再 细 分 。 如 果 不 同 的 处 理 器 有 不 同 的 工作 负载 ， 在 其 他 单元 正在 处 理 问题 的 部 分 时 间 
里 ，-- 些 处 理 器 可 能 空闲 。 在 一 些 并 行程 序 中 ， 并 行程 序 运算 时 处 理 器 必须 在 某 些 点 同步 。 
如 果 在 同一 时 间 所 有 处 理 器 没有 做 好 同步 准备 ， 那 么 较 早 就 绪 的 处 理 器 将 会 空间 ， 直 到 所 有 
其 余 处 理 器 均 就 绪 。 一 个 算法 的 有 些 部 分 可 能 是 不 能 并 行 化 的 ， 只 容许 单个 处 理 器 执行 。 当 
处 理 器 在 串 行 部 分 工作 时 ， 所 有 其 他 处 理 器 必须 等 待 。 

额外 计算 ”对 某 个 问题 的 串 行 算法 而 言 ， 已 知 的 最 快 算法 也 许 不 能 或 很 难 并 行 化 ， 这 样 ， 
迫使 我 们 使 用 一 个 较 慢 但 容易 并 行 化 〈 即 有 较 高 的 并 发 度 ) 的 串 行 算法 来 进行 并 行 化 。 并 行 
程序 和 最 好 的 串 行程 序 在 计算 中 的 差异 是 由 于 并 行程 序 引 起 的 额外 计算 。 

基于 最 快 串 行 算法 的 并 行 算法 也 许 进行 比 串 行 算法 更 多 的 聚合 计算 。 这 种 计算 的 一 个 实 
例 是 快速 傅 里 叶 变换 算法 。 使 用 串 行 算法 时 ， 某 些 计算 结果 能 重复 使 用 。 然 而 ， 使 用 并 行 算 
法 时 ， 这 些 结果 不 能 重复 使 用 ， 因 为 它们 是 由 不 同 处 理 器 产生 的 。 因 此 ， 在 不 同 处 理 器 上 ， 
一 些 计算 会 多 次 进行 。 第 13 章 将 详细 讨论 这 些 算法 。 

由 于 求解 相同 问题 时 ， 用 不 同 并 行 算法 会 导致 不 同 的 开销 ， 对 每 个 算法 建立 一 个 性 能 特 
征 来 量化 这 些 开销 是 很 重要 的 。 


5.2 并 行 系统 的 性 能 度量 


从 确定 最 好 算法 、 评 估 硬 件 平台 及 检查 并 行 化 的 益处 的 观点 研究 并 行程 序 的 性 能 是 重要 
的 。 根 据 性 能 分 析 的 预期 结果 ， 人 们 采用 了 多 种 度量 。 


5.2.1 执行 时 间 


程序 串 行 运行 时 间 是 指 在 串 行 计算 机 上 ， 程 序 从 开始 到 运行 结束 所 用 的 时 间 。 并 行 运行 
时 间 (parallel runtime) 是 从 并 行 计算 开始 时 刻 到 最 后 的 处 理 器 完成 运算 所 经 过 的 时 间 。 我 们 
用 7T, 表 示 串 行 运行 时 间 ，7, 表 示 并 行 运行 时 间 。 


5.2.2 总 并 行 开销 


在 称 为 开销 函数 (overhead function ) 的 单一 表达 式 中 ， 包含 由 并 行程 序 导致 的 开销 。 我 
们 定义 并 行 系统 的 开销 函数 或 总 开销 (total overhead) 为 由 所 有 处 理 器 花费 的 总 时 间 ， 除 去 
在 单个 处 理 器 上 求解 相同 问题 时 最 快 的 串 行 算法 所 需 的 时 间 。 我 们 用 符号 7, 表示 并 行 系统 的 
开销 函数 。 | , 

求解 一 个 问题 ， 所 有 处 理 器 所 用 总 时 间 是 pT, 。 这 个 时 间 的 T, 部 分 是 完成 有 用 工作 所 花费 
的 时 间 ， 剩 余部 分 即 是 开销 。 因 此 ， 开 销 函 数 (7,) 可 表示 为 


5.2.3 加 速 比 


证 佑 并 行 系统 时 ， 我 们 常常 感 兴趣 的 是 ， 通 过 对 一 个 给 定 应 用 并 行 化 ， 比 串 行 计算 能 获 
得 多 少 性 能 增益 。 加 速 比 是 并 行 求解 问题 获得 相应 益处 的 一 种 度量 。 它 被 定义 为 在 单个 处 理 





器 上 求解 问题 所 花 的 时 间 与 用 p 个 相同 处 理 器 并 行 计 算 机 求解 同一 问题 所 花 时 间 之 比 。 我 们 用 
符号 4 表示 加 速 比 。 
例 5.1 用 n 个 处 理 器 对 n 个 数 相 加 
考虑 用 n 个 处 理 器 加 4 个 数 的 问题 。 最 初 ， 对 每 个 处 理 器 指定 一 个 待 相 加 的 数 ， 计算 结束 时 ， 
其 中 一 个 处 理 器 保存 相 加 的 总 和 。 假 定 z 为 2 的 智 ， 我 们 可 以 通过 衍生 部 分 总 和 为 处 理 器 的 一 棵 
加 加- - 叉 树 ， 用 log n 步 来 实现 这 个 运算 。 图 5-2 说 明 n = 16 时 的 计算 过 程 。 处 理 器 标号 为 从 0 到 
， 类 似 地 ， 相 加 的 16 个 数 也 加 上 标号 0 到 15。 这 些 带 有 连续 标号 ;型 j 的 数 之 和 用 》, 表示 。 
图 5-2 中 显示 的 每 一 步 由 一 个 加 法 和 单个 字 的 通信 组 成 。 加 法 可 在 某 个 固定 时 间 (例如 六 ) 
内 实现 ， 而 单个 字 的 通信 可 在 时 间 # + t, 内 实现 。 因 此 ， 加 法 和 通信 运算 花费 一 个 常数 时 间 。 


这 样 ， 
Tp = Ql(logn) : (5-2) 


由 于 这 种 问题 可 用 单个 处 理 器 在 时 间 B(n) 内 求解 ， 其 加 速 比 为 
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b) 第 二 个 通信 步 双 
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c) 第 三 个 通信 步骤 
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d) 弟 四 个 通信 步 对 


15 
To 


oooocoooooocoooo0ooeoeoe 


e) 最 后 通信 后 在 处 理 器 0 中 的 累积 总 和 
图 5-2 用 16 个 处 理 器 计算 16 个 数 的 总 和 ， 》 表示 标号 从 ;到 /的 数 的 和 
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对 某 一 个 给 定 的 问题 ， 有 多 个 串 行 算法 可 用 ， 但 这 些 算法 并 不 是 都 能 适合 并 行 计算 的 。 
当 使 用 串 行 计算 机 时 ， 自 然 使 用 这 样 的 串 行 算法 ， 它 以 最 少 的 时 间 求 解 问题 。 给 定 一 个 并 行 
算法 ， 用 相对 于 在 单个 处 理 器 上 求解 相同 问题 的 最 快 的 串 行 算法 来 判断 并 行 性 能 是 公正 的 。 
有 了 时， 我 们 并 不 知道 求解 问题 时 近似 最 快 的 串 行 算 法 ,或 由 于 其 运算 时 间 过 长 使 之 实际 无 法 
实现 。 这 种 情况 下 ， 我 们 采取 最 快 的 已 知 算法 ， 对 串 行 计算 机 而 言 它 是 最 好 的 ， 这 将 是 一 种 
实用 的 选择 。 我 们 把 并 行 算法 求解 问题 同 最 好 的 串 行 算法 求解 同样 问题 的 性 能 进行 比较 。 定 
义 加 速 比 3 为 最 好 串 行 算法 求解 问题 的 运算 时 间 与 用 p 个 处 理 器 求解 相同 问题 的 并 行 算法 所 花 
时 间 的 比值 。 假 定 使 用 并 行 算法 的 p 个 处 理 器 与 串 行 算法 使 用 的 处 理 器 相同 。 


例 5.2 计算 并 行程 序 加 速 比 


考虑 并 行 冒 泡 排 序 (9.3.1 节 ) 的 例子 。 假 定 10; 个 记录 的 冒 泡 排 序 的 串 行 形式 耗 时 150 秒 ， 
并 且 串 行 快速 排序 能 在 30 秒 内 排序 相同 记录 。 如 果 冒 泡 排序 的 并 行 形式 (也 称 为 奇 - 偶 排序 )， 
人 在 4 个 处 理 强 上 花费 40 秒 ， 那 么 看 上 去 并 行 奇偶 排序 算法 的 加 速 比 为 150/40 或 3.75。 然 而 ， 
这 个 结果 会 使 人 误解 ， 因 为 在 实际 的 并 行 算法 中 ， 得 到 的 相对 于 最 快 串 行 算 法 的 加 速 比 为 
30/40 或 0.75。 | | 


理论 上 ， 加 速 比 不 可 能 超过 处 理 器 数 P。 如 果 最 好 串 行 算 法 在 单个 处 理 器 上 求解 给 定 问 题 
人 花费 六 个 时 间 单 位 ， 那 么 ， 若 没有 一 个 处 理 器 花费 时 间 多 于 7,/p， 则 加 速 比 p 能 在 p 个 处 理 器 
上 效 得 。 加 速 比 大 于 p 是 可 能 的 ， 只 要 每 个 处 理 器 在 求解 问题 时 花费 的 时 间 少 于 7T, /p。 在 这 种 
情况 下 ， 单 个 处 理 器 模仿 p 个 处 理 器 ， 并 且 用 少 于 T, 个 时 间 单 位 求解 问题 。 但 这 是 矛盾 的 ， 因 
为 按照 定义 ， 加 速 比 是 关于 最 好 的 申 行 算法 来 计算 。 如 果 T, 为 串 行 算法 的 运算 时 间 ， 那 么 问 
题 不 可 能 在 单个 处 理 器 上 用 少 于 刀 时 间 求 解 。 

实际 上 ， 有 时 可 观察 到 加 速 比 大 于 p 的 情况 (此 现象 称 为 超 线性 加 速 比 )。 当 串 行 算法 执 
行 的 任务 大 于 并 行 形式 ， 或 由 于 硬件 特性 使 得 任务 不 适合 用 串 行 实现 时 ， 这 种 情况 常常 发 生 。 
例如 ， 问 题 的 数据 可 能 太 大 而 不 能 放 到 单个 处 理 器 的 高 速 缓存 中 ， 这 样 ， 由 于 使 用 较 慢 的 储 
存单 元 使 性 能 下 降 。 但 是 ， 当 在 几 个 处 理 器 之 间 划 分 数据 时 ， 单 个 的 数据 划分 会 小 到 能 放 入 
各 个 处 理 器 的 高 速 缓存 中 。 本 书后 部 分 ， 由 于 考虑 分 级 储存 技术 ， 我 们 就 不 再 讨论 超 线性 加 
速 比 。 : 


例 5.3 高 速 缓存 的 超 线性 效果 


考虑 在 2 处 理 器 的 并 行 系统 上 执行 的 一 个 并 行程 序 。 该 程序 试图 求解 规模 为 W 的 问题 实例 ， 
其 中 ， 每 个 处 理 器 上 有 64 KB 高 速 缓存 ， 程 序 的 高 速 缓 存 命中 率 达 到 80%。 假 定 高 速 缓 存 的 延 
述 为 2 纳 秒 ，DRAM 延 迟 为 100 纳 秒 ， 有 效 的 存储 器 存 取 时 间 为 2 x 0.8+100 x 0.2 或 21.6 纳 秒 ，。 
如 末 计 算 为 内 存 受 限 的 ， 并 计算 进行 一 个 FLOP/ 内 存 访问 ， 则 处 理 速 度 相 当 于 46.3 MFLOPS， 
现在 考虑 一 种 情况 ， 即 2 个 处 理 器 中 的 每 一 个 都 有 效 地 执行 问题 的 一 半 ( 即 W/2 大 小 )。 对 这 个 
问题 规模 ， 由 于 有 效 问题 规模 较 小 ， 高 速 缓存 命中 率 有 望 更 高 。 我 们 假定 高 速 缓存 的 命中 率 
为 90% ， 剩 余数 据 的 8% 来 自 本 地 DRAM， 其 余 2% 自 远程 DRAM (通信 开销 )。 假定 远程 数据 
存 取 耗 时 400 纳 种 ， 这 相当 于 2 x 0.9+100 x 0.08+400 x 0.02 或 17.8 纳 秒 的 总 存 取 时 间 ， 因此 ， 
每 个 处 理 器 相应 的 执行 速度 为 56.18 MFLOPS， 总 执行 速度 为 112.36 MFLOPS ， 此 时 加 速 比 可 


由 比 串 行 方式 更 快 的 速度 来 计算 ， 即 112.36/46.3 或 2.43。 这 是 由 于 每 个 处 理 器 上 较 小 的 问题 规 ， 





模 提 高 了 高 妹 缓 存 的 命中 率 ， 我 们 注意 到 超 线 性 加 速 比 。 图 


例 5.4 搜索 分 解 的 超 线性 效果 


考虑 搜索 非 结 构 树 的 叶 节 点 算法 。 每 一 叶 有 一 个 相应 的 标号 并 且 目 标 是 要 寻找 一 个 有 专 
门 标号 的 布点 ， 该 专门 标号 记 为 “S'  。 这 样 的 计算 常常 用 来 求解 组 合 问题 ， 其 中 标号 “S” 可 
能 包含 这 类 问题 的 解 《11.6 节 )。 图 5-3 就 是 这 种 树 。 解 节点 是 在 树 的 最 右边 的 叶 。 基 于 深度 优 
先 树 志 历 的 串 行 方法 求解 此 问题 时 将 搜索 整个 树 ， 即 所 有 14 个 节点 。 如 果 花 费时 间 上 来 访问 一 
个 玉 点 ， 这 个 遍历 时 间 为 14rx 。 现 在 考虑 并 行 形 式 ， 此 时 ， 左 子 树 由 处 理 器 0 搜索 ， 右 子 树 由 
处 理 器 1 搜索 。 如 果 2 个 处 理 器 以 相同 速度 搜索 树 ， 在 结果 找到 前 ， 并 行 方式 只 搜索 有 阴影 的 
1 点。 注意 到 并 行 算 法 做 的 全 部 工作 只 涉及 到 9 个 节点 ， 即 9k 。 假 设 根 节点 扩展 是 串 行 的 ， 相 
应 的 并 行 时 间 为 5t。 (一 个 根 节点 扩展 ， 随 后 在 每 个 处 理 器 上 伴随 4 个 节点 扩展 )。 因 此 ，2 个 处 
理 缉 执行 的 加 速 比 为 14x /5 或 28。 - 

这 种 超 线性 加 速 比 是 由 于 并 行 和 串 行 算法 所 作 的 工作 不 同 造成 的 。 实 际 上 ， 如 果 2 个 处 理 
粥 的 算法 作为 相同 处 理 器 的 2 个 进程 来 实现 ， 则 对 于 这 种 问题 的 情况 ,算法 的 超 线 性 将 会 消失 。 
注意 ， 当 采用 搜索 分 解 时 ， 由 并 行 和 串 行 算法 完成 的 相关 工作 量 依赖 于 解 的 位 置 ， 要 找到 一 
个 对 于 全 部 事例 都 是 最 优 的 串 行 算法 是 不 可 能 的 。 这 种 影响 会 在 第 11 章 更 详细 地 分 析 . 国 





. () 
图 5-3 对 一 个 给 定 标 号 “S” 的 节点 ， 在 2 个 处 理 器 上 使 用 深度 优先 遍历 方式 搜索 一 棵 非 结构 树 


注 : 侍 使 用 岗 个 处 理 器 的 方法 中 ， 处 理 器 0 搜索 左 子 树 ， 处 理 器 1 搜索 右 子 树 ， 在 找到 解 之 前 ， 只 有 阴影 节 
点 被 扩展 。 相 应 串 行 方式 扩展 到 整个 树 。 显 然 ， 捉 行 算法 比 并 行 算法 做 更 多 的 工作 。 


5.2.4 效率 


只 有 包含 p 个 处 理 器 的 理想 并 行 系统 可 能 提供 加 速 比 >。 但 实际 上 ， 实 现 不 了 理想 的 性 能 ， 
因为 当 执 行 一 个 算法 上 时， 处 理 器 不 可 能 投入 100% 的 时 间 来 进行 算法 的 计算 。 如 例 5.1 中 所 见 ， 
处 理 器 计算 "个 数 的 总 和 所 需 的 一 部 分 时 间 是 空闲 时 间 (及 用 于 在 实际 系统 中 通信 )。 效 率 
(efficiency) 是 处 理 器 被 有 效 利 用 的 部 分 时 间 的 度量 。 它 定义 为 加 速 比 与 处 理 器 数目 的 比率 。 
在 理想 的 并 行 系统 中 ， 加 速 比 等 于 p， 效 率 等 于 1。 实 际 上 ， 加 速 比 小 于 p 而 效率 在 0 和 1 之 间 ， 
它 依赖 于 处 理 器 被 利用 的 效率 。 我 们 用 符号 有 表示 效率 。 效 率 E 在 数学 上 可 表示 为 

S 


“一 (5-4) 


例 5.5 在 n 个 处 理 器 上 相 加 n 个 数 的 效率 
从 公式 (5-3) 和 前 面 的 定义 ， 在 个 处 理 器 上 相 加 a 个 数 的 算法 的 效率 是 
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E = e( 硬 和 
n 
(ma) 
= ©Q 
logn 
在 保留 并 行 平台 各 种 常数 的 同时 ， 我 们 来 推导 并 行 运 算 时 间 、 加 速 比 以 及 效率 。 天 


例 5.6 图 像 边缘 检测 


已 知 一 个 nx n 像 素 的 图 像 ， 检 测 边 缘 问 题 相 当 于 应 用 一 个 3 x 3 模板 到 每 个 像素 。 应 用 模 
板 过 程 相当 于 把 像素 值 同 相 应 的 模板 值 相 乘 ， 并 沿 整个 模板 求 和 (一 个 卷 积 运算 )。 这 个 过 程 
用 图 5-4a 及 典型 模板 (图 5-4b) 说 明 。 由 于 我 们 对 每 个 像素 应 用 9 次 乘法 -加 法 和 运算， 如果 每 
个 乘法 -加 法 运算 开销 时 间 t. ， 则 在 串 行 计算 机 上 整个 运算 花费 时 间 91.n?。 

对 于 这 个 问题 ， 一 个 人 简单 的 并 行 算法 是 在 处 理 器 上 均 分 图 像 ， 并 且 在 每 个 处 理 器 把 模板 
应 用 于 各 目的 子 图 像 。 注 意 为 把 模板 应 用 到 边界 像素 ， 处 理 器 必须 得 到 被 分 配给 相 邻 处 理 器 
的 数据 。 特 别 地 ， 如 果 一 个 处 理 器 被 分 配 一 个 垂直 分 块 的 zx (n/p) 维 的 子 图 像 ， 它 必须 从 左边 
的 处 理 融 存 取 一 层 n 个 像素 ， 及 从 右边 的 处 理 器 存 取 一 层 n 个 像素 (注意 ， 对 在 两 端 分 配子 图 
像 的 2 个 处 理 器 ， 这 些 存 取 中 的 一 个 是 多 余 的 )。 这 在 图 5-4c 说 明 。 


















a) b) c) 
图 5-4 边缘 检测 实例 : a) 8 x 8 图 像 ; b) 边缘 检测 典型 模板 ; c) 图 像 划 分 给 4 个 处 理 器 ， 
带 阴影 区 域 表示 必须 从 相 邻 的 处 理 器 到 处 理 器 1 进行 通信 的 图 像 数 据 
在 消息 传递 计算 机 上 ， 算 法 分 两 步 执 行 : i) 用 2 个 相 邻 处 理 器 的 每 一 个 交换 n 个 像素 的 
层 ; ii) 对 局 部 子 图 像 应 用 模板 。 第 一 步 包 含 两 个 n 字 的 消息 (假设 每 个 像素 用 一 个 字 交 换 
RGB 数 据 )。 它 耗 时 2(i, + tn)。 第 二 步 耗 时 9t.nYp。 因 此 ， 算 法 的 总 时 间 为 


n2 
相应 的 加 速 比 和 效率 为 


= 91.n? 
ies 十 2(ts 十 fwn) 





并 让 订 的 铬 村 寻 村 
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下 一 


5.2.5 成 本 


在 并 行 系统 中 ， 我 们 定义 求解 问题 的 成 本 为 并 行 运行 时 间 和 所 用 处 理 器 数目 的 乘积 。 成 ”[203 
本 反映 每 个 处 理 器 求解 问题 所 花费 时 间 的 总 和 。 效 率 也 可 表示 为 已 知 最 快 串 行 算法 求解 问题 
的 执行 时 间 与 用 p 个 处 理 器 求解 相同 问题 的 成 本 之 比 。 

在 单 处 理 器 上 求解 问题 的 成 本 是 已 知 最 快 串 行 算法 的 执行 时 间 。 如 果 在 并 行 计算 机 上 ， 
求解 问题 的 成 本 作为 输入 数据 大 小 的 函数 ， 与 在 单 处 理 器 上 的 已 知 最 快 串 行 算法 有 着 同样 的 
的 渐 近 增长 (用 6 表示 )， 那 么 就 称 并 行 系统 是 成 本 最 优 的 〈cost-optimal)。 由 于 效率 是 串 行 
成 本 与 并 行 成 本 之 比 ， 成 本 最 优 的 并 行 系统 的 效率 为 6(1)。 

有 时 成 本 是 工作 或 处 理 器 -时 间 冬 积 ， 而 成 本 最 优 的 系统 也 称 作 p7, 最 优 系统 。 


例 5.7 用 n 个 处 理 器 求 n 个 数 之 和 的 成 本 


例 5.1 给 出 的 用 n 个 处 理 器 求 n 个 数 之 和 的 算法 有 处 理 器 -~ 时间 之 积 8(n log n)。 由 于 这 个 运 
算 的 串 行 运算 时 间 为 G6(n)， 这 个 算法 不 是 成 本 最 优 的 。 z 本 


成 本 最 优 是 一 个 非常 重要 的 实用 概念 ， 尽 管 它 按 渐 近 性 定义 。 我 们 用 下 面 的 例子 说 明 其 
应 用 。 


例 5.8 非 成 本 最 优 算法 的 性 能 


考虑 排序 算法 ， 用 n 个 处 理 器 对 列表 进行 排序 耗 时 (log 由 2:。 由 于 (基于 比较 ) 排序 的 串 
行 运 算 时 间 为 n log n， 这 个 算法 的 加 速 比 和 效率 分 别 为 n/log n 和 1/log n。 该 算法 的 pT 积 为 
n(log n)?。 因 此 ， 该 算法 不 是 成 本 最 优 的 ， 但 仅 差 一 个 log n 的 因子 。 让 我 们 考虑 一 个 真实 的 
情况 : 处 理 器 的 数目 p 远 小 于 n。 分 配 4 个 任务 给 p < n 个 处 理 器 得 出 的 并 行 时 间 小 于 n(log n)*p。 
这 个 结果 从 下 述 事 实 推 出 : 如 果 n 个 处 理 器 花 时 间 (log n)?， 则 一 个 处 理 器 花 时 间 n(log n)?; p 
个 处 理 器 花 时 间 n(log n)?Yp。 这 种 形式 对 应 的 加 速 比 为 p/log n。 考 虑 用 32 个 处 理 器 对 1024 个 
数 进行 排序 (nn = 1024，log n = 10)。 期 望 得 到 的 加 速 比 仅 为 p/log n 或 3.2。 随 a 的 增加 ， 这 个 
加 速 比 碱 小 。 对 n = 1056，log n = 20， 加 速 比 仅 为 1.6。 很 显然 ， 存 在 一 个 不 是 成 本 最 优 甚至 
相差 一 个 很 小 因子 的 重要 成 本 (注意 因子 log p 甚 至 小 于 Vp )。 这 说 明成 本 最 优 在 实用 上 的 
重要 性 。 图 [204 


5.3 粒度 对 性 能 的 影响 


例 5.7 说 明 一 个 非 成 本 最 优 算法 的 实例 。 该 例 中 的 算法 使 用 了 与 输入 个 数 一 样 多 的 处 理 
络 ， 使 用 的 处 理 器 数 过 多 。 实 际 上 ， 我 们 分 配 更 多 的 输入 数据 块 给 处 理 器 。 这 相当 于 在 处 
理 硕 上 增加 了 计算 粒度 。 根 据 处 理 器 的 数目 ， 如 果 使 用 少 于 最 大 可 用 的 处 理 器 数 来 执行 一 
个 并 行 算法 ， 则 该 系统 被 称 为 按 处 理 器 数目 缩小 (scaling down) 一 个 并 行 系统 。 缩 小 并 行 





i 
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系统 的 一 个 简单 方法 是 为 每 个 处 理 器 的 输入 单元 设计 一 个 并 行 算法 ， 然后， 用 较 少 的 处 理 - 
器 来 模拟 更 多 的 处 理 器 。 如 果 有 n 个 输入 但 只 有 p 个 处 理 器 (p < n)， 通 过 假设 x 个 虚拟 处 理 器 ， 
我 们 能 使 用 为 n 个 处 理 器 设计 的 并 行 算 法 ， 并 使 用 p 个 物理 处 理 器 的 每 一 个 来 模拟 n/p 个 虚拟 
处 理 器 。 

当 处 理 况 数目 减少 n/p 倍 ， 每 个 处 理 器 的 计算 增加 n/p 倍 ， 因 为 每 个 处 理 器 现在 完成 n/p 个 
处 理 絮 的 工作 。 如 果 虚 拟 处 理 器 被 适当 地 映射 到 物理 处 理 器 ， 总 通信 时 间 的 增加 不 会 多 于 n/p 
倍 。 总 的 并 行 和 运行 时 间 至 多 增加 mp 倍 ， 而 处 理 器 -时 间 的 乘积 不 会 增加 。 因 此 ， 如 果 含 "个 
处 理 器 的 并 行 系统 是 成 本 最 优 的 ， 用 p 个 处 理 器 (p < n) 来 模拟 x 个 处 理 器 也 会 保持 成 本 最 优 。 

这 种 简单 增加 计算 粒度 方法 的 缺陷 是 : 如 果 并 行 系统 开始 不 是 成 本 最 优 的 ， 在 计算 粒度 
增加 后 ， 它 仍然 不 是 成 本 最 优 的 。 这 一 点 可 用 以 下 m 个 数 相 加 的 例子 来 说 明 。 


例 5.9 用 p 个 处 理 器 求 n 个 数 之 和 


考虑 用 p 个 处 理 器 求 x 个 数 之 和 的 问题 ， 其 中 p < ma， 并 且 n 和 z 为 2 的 寡 。 我 们 用 与 例 5.1 相 
同 的 算法 ， 并 在 p 个 处 理 器 上 模拟 n 个 处 理 器 。 对 于 n = 16 和 p = 4 的 求解 步骤 如 图 5-5 所 示 。 虚 
拟 处 理 器 ;由 标号 为 ; mod p 的 物理 处 理 器 来 模拟 ; 待 加 的 数 也 相应 地 进行 分 配 。 在 最 初 的 算法 
中 ，log n 步 中 的 前 log p 步 用 p 个 处 理 器 在 (n/p)log p 步 中 模拟 。 在 剩余 步 中 没有 通信 要 求 ， 因 
为 在 最 初 的 算法 中 ， 进 行 通信 的 处 理 器 由 相同 的 处 理 器 模拟 ; 因此 ， 剩 下 的 数字 在 本 地 相 加 。 
在 需要 通信 的 步骤 中 ， 算 法 花费 的 时 间 为 @((n/p)log p)， 此 后 ， 单 个 处 理 器 中 剩 下 n/p 个 数 相 
加 ， 伦 费时 间 B(n/p)。 这 样 ， 这 个 并 行 系统 所 花 的 总 并 行 执行 时 间 为 @((n/p)log p)。 结 果 ， 其 
成 本 为 G(n log p)， 它 渐 近 地 大 于 串 行 n 个 数 相 加 的 成 本 B(n)。 因 此 ， 该 并 行 系统 不 是 成 本 最 
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a) 4 个 处 理 器 模拟 16 个 处 理 器 的 第 一 个 通信 步 又 


图 5-5 用 4 个 处 理 器 模拟 16 个 处 理 器 计算 16 个 数 之 和 。 
,表示 从 i 到 j 的 连续 标号 的 数 之 和 
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图 5-5 ”( 续 ) 


例 5.1 说 明 ， 在 n 个 处 理 器 的 机 器 上 加 n 个 数 花费 时 间 B(log n)。 当 用 p 个 处 理 器 模拟 n 个 虚 
拟 处 理 普 (OP < ) 时 ， 预 期 的 并 行 时 间 为 @((n/p)log n)。 然 而 ， 在 例 5.9 中 ， 这 个 任务 可 在 时 间 
B((n/p)log p) 内 完成 ， 原因 是 不 必 模 拟 最 初 算法 的 每 个 通信 步 ;， 有 时， 通信 在 由 相同 物理 处 理 
营 异 拟 的 虚拟 处 理 器 之 间 发 生 。 对 这 种 运算 ， 没 有 相关 的 开销 。 例 如 ， 第 3 和 第 4 步 (图 5-5c 
和 d) 的 模拟 不 要 求 任何 通信 。 然 而 ， 通 信 减 少 不 足 以 使 算法 达到 成 本 最 优 。 例 5.10 说 明 ， 用 
一 个 更 巧妙 方法 将 数据 分 配给 处 理 器 ， 相 同 的 问题 (用 p 个 处 理 器 求 " 个 数 之 和 ) 能 达到 成 本 
最 优 。 


上 


以 
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例 5.10 求 x 个 数 之 和 的 成 本 最 优 方 法 

用 p 个 处 理 器 求 4 个 数 之 和 的 另 一 方法 见 图 5-6 (n = 16,，p = 4)。 在 算法 的 第 一 步 ， 每 个 处 
理 絮 在 时 间 B(n/p) 内 本 地 相 加 各 目的 n/p 个 数 。 现 在 问题 简化 为 在 p 个 处 理 器 上 加 p 个 部 分 和 ， 
用 例 5.1 接 述 的 方法 可 在 时 间 B@(log p) 内 完成 。 此 算法 的 并 行 运 算 时 间 为 


Tp = O(n/p + logp) (5-5) 
其 成 本 为 BG(n + p log p)。 当 n = Q(p log p) 时 ,成 本 为 G6(n)， 这 与 串 行 运行 时 间 相 同 。 因 
此 ， 这 个 并 行 系统 是 成 本 最 优 的 。 图 


这 些 简单 的 例子 说 明 ， 计 算 映 射 到 处 理 器 的 方式 可 以 决定 并 行 系统 是 否 为 成 本 最 优 的 。 
然而 ， 注 意 我 们 并 不 能 通过 缩减 处 理 器 数 ， 使 所 有 非 成 本 最 优 的 系统 变 为 成 本 最 优 的 。 
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图 5-6 用 4 个 处 理 器 计算 16 个 数 之 和 的 成 本 最 优 方法 
5.4 并 行 系统 的 可 扩展 性 


递 常 ， 程 序 都 是 在 较 少 的 处 理 器 中 针对 较 小 的 问题 进行 设计 和 测试 。 然 而 这 些 程序 所 要 
求解 的 实际 问题 却 非常 大 ， 并 且 机 器 包含 很 多 处 理 器 。 虽 然 通过 使 用 机 器 和 问题 的 缩小 版 本 ， 
可 以 简化 代码 开发 ， 但 在 缩减 的 系统 中 ， 程 序 的 性 能 和 正确 性 是 很 难 确定 的 。 本 节 中 我 们 应 
用 分 析 工 具 来 分 析 各 种 评估 并 行程 序 可 扩展 性 的 方法 。 


例 5.11 为 什么 性 能 推测 如 此 困难 ? 


考虑 用 64 个 处 理 器 计算 一 个 z 点 的 快速 传 里 叶 变 换 (FFT) 的 3 个 并 行 算法 。 图 5-7 表 示 当 
的 值 增加 到 18 K 时 的 加 速 比 。 保 持 处 理 器 数 不 变 ， 当 n 值 较 小 时 ， 从 获得 的 加 速 比 可 推断 出 2 
进 制 交 换算 法 和 3-D 转 置 算法 的 加 速 比 最 好 。 然 而 ， 当 问题 扩展 到 18 K 个 点 或 更 多 的 点 时 ， 从 
图 5-7 可 看 出 2-D 转 置 算法 能 得 到 最 好 的 加 速 比 。( 这 些 算法 将 在 第 13 章 详细 讨论 . ) 加 


当 回 题 规模 保持 不 变 ， 而 处 理 器 数 发 生变 化 时 ， 也 能 得 到 类 似 的 结果 。 不 幸 的 是 ， 相 对 
于 特例 而 言 ， 这 种 并 行 性 能 迹 线 是 标准 的 ， 这 样 就 使 得 基于 有 限 观 测 数据 的 性 能 预测 变 得 非 


常 困难 。 
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图 5-7 用 64 个 处 理 器 的 二 进 制 交 换 、2-D 转 置 和 3-D 转 置 算法 的 加 速 比 比较 ， 
其 中 t. = 2, nm =4, 1,= 25, 4 = 2 ( 详 见 第 13 章 ) 


5.4.1 并 行程 序 的 扩展 特性 


并 行程 序 的 效率 可 表示 为 
3_5 
~p pTp z 
应 用 并 行 开销 (公式 (5-1)) 的 表达 式 ， 我 们 可 以 重 写 这 个 表达 式 为 
E= 一 
1 十 秀 (5-6) 





总 开销 函数 7, 是 一 个 p 的 递增 函数 。 这 是 由 于 每 个 程序 需 包含 一 些 串 行 部 分 。 如 果 程 序 的 
串 行 部 分 花费 时 间 tew ， 那 么 这 期 间 所 有 其 他 处 理 器 必定 为 空 闪 。 相 应 的 总 开销 函数 为 (p-1) 
x pem 。 因 此 ， 总 开销 函数 7 至 少 随 p 线 性 增加 。 另 外 ， 由 于 通信 、 空 闲 以 及 超额 计算 ， 这 个 
函数 也 可 能 随处 理 器 的 数目 超 线性 地 增加 。 公 式 (5-6) 为 我 们 提供 了 对 并 行程 序 的 扩展 的 若干 
有 趣 的 见解 。 首 先 ， 对 给 定 问题 规模 〈( 即 T, 保持 不 变 )， 当 我 们 增加 处 理 器 数目 时 ，T, 增加 ， 
在 这 种 情况 下 ， 从 公式 (5-6) 明 显 看 出 并 行程 序 的 总 效率 下 降 。 这 种 对 于 给 定 问题 规模 随处 理 
器 数 增加 而 效率 却 降低 的 特性 ， 在 所 有 并 行程 序 中 都 是 常见 的 。 


例 5.12 加 速 比 和 效率 作为 处 理 器 数目 的 函数 


考虑 用 p 个 处 理 器 求 n 个 数 之 和 的 问题 。 我 们 使 用 与 例 5.10 相 同 的 算法 。 为 了 说 明 实际 的 
加 速 比 ， 用 常数 代 赫 渐进 值 。 假 设 加 2 个 数 花 费 单位 时 间 ， 算 法 的 第 一 阶段 (本 地 通信 ) 花费 
时 间 大 约 为 n/p。 第 二 阶段 包含 log p 步 ， 每 一 步 有 一 次 通信 和 一 个 加 法 。 如 果 单 个 通信 也 花费 
单位 时 间 ， 此 阶段 时 间 为 2log p。 因 此 ， 我 们 得 到 并 行 时 间 、 加 速 比 和 效率 为 


Tp = 二 +21 
PpP 三 p ogp (5-7) 





m2 


OO 


n 
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对 任何 一 对 x 和 p， 这 些 表 达 式 可 用 来 计算 加 速 比 和 效率 。 图 5-8 为 一 些 不 同 的 n 值 和 p 值 的 
S(p) 函 数 曲 线 。 表 5-1 所 示 为 相应 的 效率 。 
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图 5-8 数列 相 加 时 加 速 比 作为 处 理 器 数目 的 函数 
表 5-1 用 pP 个 处 理 器 相 加 n 个 数 时 ， 效 率 作为 n 和 p 的 函数 
n P=]1 P=4 P=8 P=1¢6 P=32 
64 1.0 0.80 0.57 0.33 0.17 
192 1.0 0Q.92 0.80 0.60 0.38 
320 1 .0 0.95 0.87 0.71 0.50 
512 1.0 ”0.97 0.91 0.80 0.62 





图 5-8 和 表 5-1 说 明 ， 加 速 比 趋 于 饱和 而 效率 下 降 ， 与 Amdahl 定 律 的 结果 (习题 5.1) 相同 。 
再 者 ， 尽 管 加 速 比 和 效率 随 p 增 加 而 继续 下 降 ， 但 对 相同 处 理 器 数 且 ， 同 样 问 题 的 较 大 实例 程 
能 得 到 更 大 的 加 速 比 和 效率 。 四 


让 我 们 分 析 保 持 处 理 器 数 不 变 而 增加 问题 规模 的 效果 。 我 们 知道 ， 总 系统 开销 函数 7 是 
问题 规模 T, 和 处 理 器 数 p 的 函数 。 在 很 多 情况 下 ，7, 随 7. 亚 线性 地 变化 。 此 时 ， 如 果 问 题 规模 
增加 而 保持 处 理 器 数目 不 变 ， 我 们 能 看 出 效率 增加 。 对 这 样 的 算法 ， 通 过 同时 增加 问题 的 规 
模 和 处 理 器 数目 ， 应 能 保持 效率 不 变 。 例 如 ， 表 5-1 用 4 个 处 理 器 加 64 个 数 的 效率 为 0.80。 如 果 
处 理 器 数目 增加 到 8， 问 题 的 规模 扩展 为 加 192 个 数 ， 效 率 保持 为 0.80 。p 增 加 到 16 和 n 增 加 到 
512 会 得 到 相同 的 效率 。 在 很 多 并 行 系统 中 ， 都 具备 同时 增加 处 理 器 数目 和 问题 规模 来 保持 效 
率 为 固定 值 的 能 力 。 我 们 称 这 种 系统 为 可 扩展 (scalable) 并 行 系统 。 并 行 系统 的 可 扩展 性 





(scalability ) 是 与 处 理 器 数目 成 比例 地 增加 加 速 比 能 力 的 度量 。 它 反映 一 个 并 行 系统 有 效 地 
利用 增加 的 处 理 资源 的 能 力 。 

回顾 5.2.5 节 ， 成 本 最 优 并 行 系统 的 效率 为 T, 。 因 此 ， 并 行 系统 的 可 扩展 性 与 成 本 最 优 性 
是 相关 的 。 如 果 处 理 器 数目 和 计算 规模 适当 地 选 定 ， 一 个 可 扩展 并 行 系统 总 是 可 成 为 成 本 最 
优 的 。 例 如 ， 例 5.10 显 示 ， 当 n= Q(p log p) 时 ， 用 p 个 处 理 器 相 加 4 个 数 的 并 行 系统 是 成 本 最 优 
的 。 例 5.13 显 示 ， 如 果 当 p 增 加 时 ，n 与 B(p log p) 成 比例 增加 ， 则 同样 的 并 行 系统 也 是 可 扩展 
的 。 
例 5.13 7 个 数 相 加 的 扩展 性 


对 于 在 p 个 处 理 器 上 成 本 最 优 的 a 个 数 相 加 ，n = 2 log p)。 如 表 5-1 所 示 ， 当 n = 64、p = 
4 上 时， 效率 为 0.80。 此 时 ，n 和 p 之 间 关 系 为 n = 8p log p。 如 果 处 理 器 数目 增加 到 8， 则 8p log p 
= 192。 表 5-1 显 示 ， 对 于 8 个 处 理 器 ，n = 192 时 的 效率 确实 为 0.80。 类 似 地 ， 对 于 p = 16, n= 
8p log p = 512 的 效率 为 0.80。 因 此 ， 如 果 n 随 8p log p 增 加 ， 则 这 个 并 行 系统 在 效率 为 0.80 时 维 
持 成 本 最 优 。 用 


5.4.2 可 扩展 性 的 等 效率 度量 


固定 问题 规模 《W ) 固定 处 理 器 数目 (p) 





p W 
a) b) 
图 5-9 效率 的 变化 : a) 对 给 定 问题 规模 ， 效 率 随处 理 器 数 增加 而 变化 ; 
b) 对 给 定 处 理 礁 数目 ， 效 率 随 问 题 规模 增加 而 变化 。 
b) 说 明 的 现象 在 所 有 并 行 系统 中 并 不 常见 


我 们 用 以 下 两 个 结论 来 概括 本 节 前 面 的 讨论 : 

1) 对 于 给 定 的 问题 规模 ， 当 增加 处 理 器 数目 时 并 行 系统 的 总 效率 下 降 。 这 种 现象 在 所 有 
并 行 系统 是 常见 的 。 

2) 在 很 多 情况 下 ， 如 果 问 题 规模 增加 而 处 理 器 数目 不 变 ， 并 行 系统 的 效率 增加 。 

这 两 种 现象 分 别 用 图 5-9a 和 b 说 明 。 从 这 两 个 结论 中 ， 我 们 定义 可 扩展 并 行 系统 为 ， 随 着 
处 理 器 数目 的 增加 ， 问 题 规模 也 增加 ， 而 效率 能 保持 不 变 。 为 了 保持 效率 不 变 ， 我 们 还 必需 
知道 问题 规模 随 着 处 理 器 数目 以 什么 样 的 速度 增加 。 对 于 不 同 的 并 行 系统 ， 为 了 保持 效率 不 
变 ， 当 处 理 器 数 增加 时 ， 问 题 规模 必须 以 不 同 的 速度 增加 。 这 个 速度 决定 并 行 系统 可 扩展 的 
程度 。 下 面 我 们 会 指出 ， 问 题 规模 以 较 低 的 速度 增加 比 以 较 高 的 速度 更 合乎 需 要 。 我 们 现在 
来 定量 地 分 析 决 定 并 行 系统 可 扩展 程度 的 度量 。 但 在 分 析 之 前 ， 我 们 必须 准确 地 定义 问题 规 
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模 (problem size ) 的 概念 。 
问题 规模 当 我 们 分 析 并 行 系统 时 ， 常 常会 遇 到 被 求解 问题 的 规模 这 个 概念 。 至 今 为 止 ， 
我 们 非 正 式 地 使 用 了 术语 问题 规模 而 没有 给 出 确切 的 定义 。 把 问题 规模 表示 成 输入 大 小 的 参 


数 是 一 种 简单 的 方法 。 例 如 ， 在 n x a 阶 的 矩阵 运算 中 ， 问 题 规 模 为 *。 这 个 定义 的 缺陷 是 问题 


规模 的 解释 随 问 题 的 不 同 而 变化 。 例 如 ， 输 入 大 小 加 们 会 导致 人 年 阵 乘法 运算 时 间 增 加 8 倍 ， 俱 
阵 加 法 运算 时 间 增 加 4 倍 (假设 常规 的 9(n’) 算 法 为 最 好 的 矩阵 乘法 算法 ， 不 考虑 有 更 好 渐 近 
复杂 度 的 更 复杂 算法 )。 

问题 规模 或 大 小 的 一 致 性 定义 应 该 是 ， 不 管 是 什么 问题 ， 问 题 规模 加 倍 总 意味 着 需要 的 
计算 量 加 倍 。 因 此 ， 我 们 按照 求解 问题 所 需 的 基本 运算 总 数 来 表示 问题 规模 。 按 这 个 定义 ， 
对 于 n x n 阶 的 矩阵 乘法 (假设 用 常规 算法 )， 问 题 规 模 为 G(n3)， 而 对 于 n x n 阶 和 矩阵 加 法 ， 问 
题 规模 为 9(z7。 为 了 使 问题 规模 对 于 一 个 给 定 问 题 是 唯一 的 ， 我 们 定义 问题 规模 为 : 在 单 处 
理 器 上 用 最 好 的 串 行 算法 求解 问题 所 需 的 基本 计算 步 数 ， 其 中 最 好 的 串 行 算法 在 5.2.3 节 中 定 
义 。 因 为 这 是 按 串 行 时 间 复 杂 度 定义 的 ， 问 题 规模 为 输入 大 小 的 函数 。 表 示 问 题 规模 的 符号 
为 W。 

在 本 章 的 剩余 部 分 ， 我 们 假定 执行 算法 的 一 个 基本 计算 步 又 要 花费 单位 时 间 。 这 个 假设 
不 会 影响 对 任何 并 行 系统 的 分 析 ， 因 为 其 他 有 关 硬 件 的 常数 ， 如 消息 开始 时 间 、 每 字 转 送 时 
旧 ] 以 及 每 站 时 间 ， 都 能 用 相对 于 基本 计算 步骤 所 花 的 时 间 标 准 化 。 按 这 个 假设 ， 问 题 规模 W 
等 于 在 串 行 计算 机 上 用 最 快 的 已 知 算法 求解 问题 花费 的 串 行 运算 时 间 T, 。 


等 效率 函数 
并 行 执行 时 间 可 表示 为 问题 规模 、 开 销 函 数 和 处 理 器 数目 的 函数 。 我 们 把 并 行 运行 时 间 
写 为 
To。 = W + To(W, p) 
p (5-10) 
加 速 比 表达 式 为 
W 
Tp 
Pi Wp es 
VW+T(W,p) (5-11) 


W + TT,(W, p) 
] 
1 + To(W, p)/W (5-12) 


住 公式 (5-12) 中 ， 如 果 问 题 规模 不 变 而 p 增 加 ， 效 率 则 下 降 ， 因 为 系统 总 开销 T, 随 p 增 加 。 
如 末 W 增 加 而 处 理 器 数 不 变 ， 则 对 可 扩展 并 行 系统 ， 效 率 增加 。 这 是 由 于 ， 在 p 值 固定 的 情况 
下 元 比 6(W) 变 化 慢 。 对 这 些 并 行 系统 ， 如 果 当 p 增 加 时 W 也 增加 ， 效 率 能 保持 在 一 个 预期 值 
(0 与 1 之 间 )。 





对 不 同 的 并 行 系统 ， 为 了 保持 固定 的 效率 ，8 必 须 随 着 p 以 不 同 速度 增加 。 例 如 在 某 些 情 
况 ， 为 了 防止 效率 随 p 增 加 而 下 降 ， 多 可 能 需要 p 按 指数 函数 增加 。 这 种 并 行 系统 的 扩展 性 较 
益 。 因 为 在 这 些 并 行 系统 中 ， 除 非 问 题 规模 巨大 ， 和 否则 对 于 大 量 的 处 理 绢 ， 很 难 获得 良好 的 
加 速 比 。 另 一 方面 ， 如 果 W 只 需 随 p 线 性 地 增加 ， 则 并 行 系统 的 可 扩展 性 很 高 。 这 是 因为 ， 对 
适度 的 问题 规模 ， 它 能 容易 得 到 与 处 理 器 数目 成 比例 的 加 速 比 。 

对 可 扩展 并 行 系统 ， 如 果 公 式 ($-12) 中 的 比值 也 /三 保持 国定 值 ， 效 率 就 能 保持 -一 个 定 值 
(0 与 1 之 则 )。 如 果 要 求 出 效率 值 E 

| 





”二 THEW PIW 
TW,p) 1-E 
Ww EE 
WwW = 过 To(W, p) 
|-_E ， (5-13) 


令 K = EL(1-EE) 为 依赖 于 效率 的 一 个 常数 。 由 于 7 为 W 和 p 的 一 个 函数 ， 公 式 (5-13) 可 重 写 
为 
WwW 一 KT(W, p) (5-14) 
由 公式 (5-14) 可 知 ，、 癌 题 规模 W 可 作为 p 的 函数 通过 代数 运算 求 出 。 这 个 函数 表明 ， 当 p 增 
加 时 要 保持 效率 固定 ，W 所 需 的 增长 速度 。 我 们 称 这 个 孙 数 为 并 行 系统 的 等 效率 函数 
(isoefficiency function )。 等 效率 函数 决定 并 行 系统 能 维持 不 变 效率 的 难 易 程度 ， 从 而 能 获得 
与 处 理 帮 数 目 成 比例 的 加 速 比 增长 。 小 的 等 效率 函数 表明 ， 小 量 地 增加 问题 的 规模 ， 就 足以 
有 效 地 利用 增加 的 处 理 品 数 ， 表 明 并 行 系统 的 可 扩展 性 高 。 但 是 大 的 等 效率 吨 数 表明 并 行 系 
统 的 可 扩展 性 差 。 对 不 可 扩展 的 并 行 系统 不 存在 等 效率 国 数 ， 因 为 在 这 种 系统 中 不 管 问 题 规 
模 增加 多 快 ， 效 率 不 能 随 着 p 的 增加 而 保持 任何 固定 值 。 


例 5.14 "个 数 相 加 的 等 效率 函数 


企 p 个 处 理 器 中 m 个 数 相 加 的 开销 函数 近似 为 2p log p， 如 公式 (5-9) 和 (5-1) 所 示 。 用 2p log p 
代入 公式 (5-14) 中 的 7, ， 得 到 


这 样 ， 这 个 并 行 系统 的 浙 近 等 效率 函数 为 6(p log p)。 这 意味 着 ， 如 果 处 理 器 数目 从 p 增 
加 到 p'， 癌 题 规模 ( 本 例 中 为 x) 必须 增加 (p' log p')/(p iog p) 人 和信， 才能 得 到 在 处 理 器 数目 为 p 时 
同样 的 效率 。 换 言 之 ， 处 理 器 数 自 增 加 p'p 售 要求 n 加 (p' log p')(p log p) 倍 ， 才 能 使 加 速 比 增 
加 p'p 倍 。 和 


住 这 个 "个 数 相 加 的 简单 例子 中 ， 由 通信 和 导致 的 开销 (今后 都 称 为 通信 开销 (communica- 
ton overhead ) ) 只 是 p 的 函数 。 通 常 ， 通 信 开 销 依赖 于 问题 规模 和 处 理 器 数目 。 一 个 典型 的 开 
销 孙 数 有 相应 于 p 和 Ww 的 多 个 不 同 阶 的 特定 项 。 此 时 ， 要 获得 等 效率 函数 作为 p 的 闭 函 数 是 烦 
项 的 〈《 黄 至 是 不 可 能 的 )。 例 如 ， 考 虑 一 个 假想 的 并 行 系统 ， 其 中 7 = pa2 + pa4Wa4。 对 于 这 
个 开销 国 数 ， 公 式 (5-14) 可 重 写 为 W = Kpz2 + Kp34W%， 显 然 ， 很 难 按 p 求 解 这 个 方程 中 的 W。 


> 
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215 回顾 效率 为 常数 的 条 件 就 是 比值 也 /W 保 持 不 变 。 随 着 p 和 有 的 增加 ， 只 要 克 中 设 有 一 项 比 
多 增加 快 ， 效 率 就 不 会 下 降 。 如 林 刀 中 有 乘法 项 ， 我 们 用 丈 中 的 每 一 项 平衡 内 ， 并 对 单个 项 计 
算 各 目的 等 效率 国 数 。 刀 中 要 求 问题 规模 随 p 以 最 高 速度 增加 的 部 分 决定 并 行 系统 的 总 痢 近 等 
效率 国 数 。 例 5.15 进 一 步 说 明 这 种 等 效率 图 数 的 分 析 方 法 。 


例 5.15 具有 复杂 开销 遇 数 的 并 行 系统 的 等 效率 函数 
考虑 T, = p+ PW 的 并 行 系 统 。 在 公式 (5-14) 中 只 用 T, 的 第 一 项 ， 得 到 
W = Kp (5-16) 


只 用 第 二 项 ， 公 式 (5-14) 产 生 下 面 W 与 p 关 系 : 


WwW 一 KpY/4Wi/4 
WI/4 = Kp3/4 
W = kp z (5-17) 


为 确保 效率 不 会 随处 理 器 数目 的 增加 而 降低 ， 开 销 函 数 的 第 一 项 和 第 二 项 要 求 问 题 规模 

分 别 按 B(p”*) 和 B(p’) 增 加 。 两 个 速度 浙 近 较 高 的 项 9(p;)， 由 于 它 包 含 由 其 他 项 决定 的 速度 ， 
所 以 它 只 能 给 出 这 个 并 行 系统 开销 总 的 浙 近 等 效率 函数 。 读 者 可 以 实际 证 明 ， 如 果 问 题 规模 
以 这 个 速度 增加 ， 效 率 将 为 6(1)， 并 且 随 着 P 的 普 加 ， 低 于 这 个 速度 的 任何 速度 都 会 引起 效率 
下 降 。 图 


在 用 单个 表达 式 中 ， 等 效率 函数 捕捉 并 行 算法 以 及 实现 并 行 算法 的 并 行 体系 结构 的 特征 。 
进行 等 效率 分 析 后 ， 我 们 能 用 较 少 的 处 理 器 测试 并 行程 序 的 性 能 ， 然 后 预测 在 处 理 器 很 多 时 
的 性 能 。 然而， 等 效率 分 析 的 用 处 并 不 局 限于 预测 增加 处 理 器 对 性 能 的 影响 。5.4.5 节 说 明 等 
效率 国 数 如 何 描述 并 行 算法 中 固有 的 并 行 化 程度 。 我 们 将 会 在 13 章 中 见 到 ， 当 硬件 参数 如 处 
理 藻 速度 和 通信 频道 发 生变 化 时 ， 等 效率 分 析 也 能 用 来 研究 并 行 系统 的 性 能 。 第 11 章 讲述 其 
至 对 于 不 能 导出 并 行 运行 时 间 值 的 并 行 算法 如 何 使 用 等 效率 分 析 。 


5.4.3 成 本 最 优 性 和 等 效率 函数 


我 们 在 5.2.5 市 曾 指 出 ， 如 果 在 某 一 并 行 系统 中 ， 处 理 器 数目 和 并 行 执行 时 间 之 积 与 在 单 
处 理 普 上 已 知 的 最 快 串 行 算法 的 执行 时 间 成 比例 ， 那 么 并 行 系统 是 成 本 最 优 的 。 换 言 之 ， 一 
个 并 行 系统 为 成 本 最 优 ， 当 且 仅 当 


iD 
个 


plpe = 昌 (W) (5-18 ) 


把 公式 (5-10) 的 右 端 代入 T, ， 得 到 下 述 公 式 : 
W+To(W,p) = OW) 
To(W,p) = O(W) (5-19) . 
W G(To(W, p)) (5-20) 


公式 (5-19) 和 (5-20) 表 明 ， 并 行 系统 为 成 本 最 优 ， 当 且 仅 当 其 开销 函数 不 会 渐 近 地 超 过 问 
题 规模 。 这 同 公式 (5-14) 给 出 的 条 件 非 常 类 似 ， 即 当 在 并 行 系统 中 增加 处 理 器 数目 时 保持 效率 





为 一 个 固定 值 所 需 的 条 件 。 如 有 果 公 式 (5-14) 产 生 等 效率 困 数 六 (p)， 则 从 公式 (5-20) 可 知 ， 当 并 
行 系统 扩展 时 ， 为 保证 其 成 本 最 优 ， 必 须 满足 关系 W = QU CD))。 下 面 的 例子 进一步 说 明了 成 
本 蓝 优 性 与 等 效率 函数 之 加 的 关系 。 z 

例 5.16 成 本 最 优 性 与 等 效率 之 间 的 关系 


考虑 p 个 处 理 器 上 wm 个 数 相 加 问题 的 成 本 最 优 解 ， 这 在 例 5.10 已 经 提出 。 对 这 个 并 行 系统 ， 
Wn， 和 而 7, = BO(p log p)。 从 公式 (5-14)， 其 等 效率 函数 为 6(p log p); 即 是 说 ， 为 保持 固定 效 
率 ， 门 题 规模 必须 按 @C log p) 增 加 。 在 例 5.10 中 ， 当 W = Q(p log p) 时 ， 我 们 已 推导 出 成 本 最 
优 的 条 件 。 图 


5.4.4 等 效率 函数 的 下 界 


以 前 我 们 讨论 过 ， 较 小 的 等 效率 函数 表示 较 高 的 可 扩展 性 。 因 此 ， 一 个 理想 的 可 扩展 并 
行 系统 必须 有 最 低 可 能 的 等 效率 函数 。 对 一 个 由 W 个 任务 单元 组 成 的 问题 ， 处 理 器 不 超过 W 个 
时 ， 它 们 能 成 本 最 优 地 使 用 ; 其 余 的 处 理 器 将 空位 。 当 处 理 器 数目 增加 时 ， 如 果 问 题 规模 以 
小 于 B(p) 的 速度 增加 ， 则 处 理 器 数目 最 终 会 超过 W。 即 使 对 一 个 没有 通信 及 其 他 开销 的 理想 
并 行 系统 ， 效 率 也 会 下 降 ， 因 为 处 理 器 增加 超过 P = W 时 ， 超 出 的 处 理 器 将 空闲 。 因 此 ， 为 保 
持 固 定 的 效率 ， 问 题 规模 必须 至 少 像 B(p) 一 样 快 地 渐 近 地 增加 。 因 此 ，QCp) 是 等 效率 函数 的 
浙 近 下 界 。 由 此 可 知 ， 理 想 可 扩展 的 并 行 系统 的 等 效率 函数 为 6(p)。 


5.4.5 并 发 度 和 等 效率 函数 


通过 能 并 发 执行 的 运算 步 数 ，2) 的 下 界 会 影响 并 行 系统 的 等 效率 函数 。 在 并 行 算法 中 ， 
任何 时 刻 能 同时 执行 的 任务 的 最 大 数 称 为 并 发 度 (degree of concurrency )。 并 发 度 是 问题 规模 
为 W 时 算法 能 并 行 执行 的 运算 步 数 的 一 个 度量 ; 它 不 依赖 于 并 行 体系 结构 。 如 果 C(W) 为 并 行 
算法 的 并 发 度 ， 则 对 规模 为 W 的 问题 ， 不 超过 C(W) 个 处 理 器 能 被 有 效 地 利用 。 


例 5.17 并 发 性 对 等 效率 函数 的 影响 


考虑 用 高 斯 消 元 法 (8.3.1 节 ) 求解 x 个 变量 的 a 个 方程 组 。 计算 总 量 为 8(m?)。 但 这 个 变 
量 必 须 一 个 接 一 个 地 消去 ， 并 且 消 去 每 个 变量 需要 B(n?) 次 计算 。 因 此 ， 在 任意 时 刻 ， 至 多 有 
B(x) 个 处 理 器 在 工作 。 由 于 这 个 间 题 的 W = B(n’)， 并 发 度 C(W) 为 8(W2?)， 且 最 多 B@(W2) 个 
处 理 粥 被 有 效 利 用 。 另 一 方面 ， 给 定 p 个 处 理 器 ， 为 了 全 部 使 用 它们 问题 规模 至 少 应 该 为 
Q2(p“)。 因 此 ， 由 并 发 性 导致 的 这 个 计算 的 等 效率 函数 为 8(p”?)。 . 莉 


公有 并 行 算法 的 并 发 度 为 @(W) 时 ， 由 并 发 性 所 导致 的 等 效率 函数 才 是 最 优 的 ( 即 6(p) )。 
如 来 一 个 算法 的 并 发 度 小 于 B@(W)， 则 由 并 发 性 所 导致 的 等 效率 函数 比 6(p) 更 差 ( 即 更 大 )。 此 
时 ， 并 行 系统 的 总 等 效率 函数 由 并 发 度 、 通 信 及 其 他 开销 所 导致 的 等 效率 函数 的 最 大 值 给 出 。 


5.5 最 小 执行 时 间 和 最 小 成 本 最 优 执行 时 间 


假如 处 理 器 数量 不 受 限 制 ， 我 们 的 兴趣 通常 在 于 问题 求解 速度 的 快慢 ， 或 并 行 算法 的 最 
小 可 能 执行 时 间 的 多 少 。 对 于 给 定 的 问题 规模 ， 如 果 我 们 增加 处 理 器 数 ， 要 么 并 行 执行 时 间 
继续 减 小 并 渐 近 地 接近 一 个 最 小 值 ， 要 么 并 行 时 间 在 达到 最 小 值 后 开始 增加 (习题 5.12)。 通 


hh 
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过 表达 式 7, 对 p 进 行 微分 并 使 导数 为 零 ( 假 设 消 数 T, (W, p) 对 p 是 可 微 的 )， 对 给 定 的 W 我 们 能 
确定 最 小 并 行 运行 时 旧 7 一。 到 最 小 时 ， 处 理 器 数目 可 由 下 面 的 公式 确定 : 


HT, =- 0 
dp (5-21) 


今 Po 为 满足 公式 (5-21) 的 处 理 器 数 日 的 值 。 7 的 值 可 以 通过 在 表达 式 T, 中 用 户 代 替 p 得 
到 。 在 下 面 的 例子 中 ， 我 们 对 个 数 相 加 的 问题 推导 T* 的 表达 式 。 : 


例 5.18 x 个 数 相 加 的 最 小 执行 时 间 
按照 例 5.12 的 假设 ，p 个 处 理 器 上 nn 个 数 相 加 问题 的 并 行 运行 时 间 近 似 为 
天 
Tp 一 一 十 21 
Pp pT ogp (5-22) 


在 公式 (5-22) 右 端 对 P 求 导数 并 令 其 等 于 零 ， 我 们 得 到 p 的 解 如 下 : 


-+2 - 0 
Pp p 
—n+2p = 0 
n 
P 了 (5-23) 
n 
把 p= 代入 公式 (5-22) 中 ， 得 到 
min' 
Tp = 2logn (5-24)) 
国 


在 例 5.18 中 ，p = po 时 处 理 器 -时 间 乘 积 为 8(n log n)， 它 大 于 问题 的 串 行 复杂 度 B(n)。 
此 ， 对 于 导致 最 小 并 行 运行 时 间 的 p 值 ， 并 行 系统 不 是 成 本 最 优 的。 假定 问题 求解 是 成 本 最 优 
的 ， 我 们 来 推出 一 个 重要 结果 ， 即 给 出 并 行 运行 时 间 的 下 界 。 

令 11"-% 为 问题 能 用 成 本 最 优 并 行 系统 求解 的 最 小 时 间 。 从 5.4.3 节 中 关于 成 本 最 优 和 等 
效率 国 数 等 价 的 讨论 可 知 ， 如 果 并 行 系统 等 效率 函数 为 BU (p))， 则 只 有 W = QU (p)) 时 ， 规 模 
为 W 的 问题 能 成 本 最 优 地 求解 。 换 言 之 ， 给 定 问题 规模 W， 成 本 最 优 求解 要 求 p = O( 广 (W))。 
由 于 成 本 最 优 并 行 系统 (公式 (5-18)) 的 并 行 运行 时 间 为 B(W/p)， 成 本 最 优 地 求解 规模 为 W 的 
问题 的 并 行 运行 时 间 下 界 为 

T6010p! 一 2( W ) 


f-1i(W) (5-25) 


例 5.19 n 个 数 相 加 的 最 小 成 本 最 优 执行 时 间 
如 例 5.14 的 推导 ， 并 行 系统 的 等 效率 函数 / (p) 为 6(p log p)。 如 果 W =n =f (p)=p logp， 则 
log n = log p + loglog p。 忽 略 二 重 对 数 项 ，log n ~ log p。 如 果 n =f(p)=p log p， 则 p = 六 1!(n) = 
n/log p ~ n/log 2。 因 此 ,， 广 (W) = B(n/log n)。 根 据 成 本 最 优 和 等 效率 函数 之 间 的 关系 ， 能 被 用 
来 成 本 最 优 地 求解 问题 的 最 大 处 理 器 数目 为 8(n log n)。 在 公式 (5-2) 中 用 p = n/log n， 得 到 
To oP" = logn + log ( 4 ) 
logn 


= 2logn ~ loglogn ( 5-26) 
: 十 








HIPS 


令 人 感 兴 趣 的 是 注意 n 个 数 相 加 的 fp 和 15” 均 为 B(log n) (公式 (5-24) 和 (5-26))。 因 


此 ， 对 这 个 问题 ， 成 本 最 优 解 也 是 浙 近 最 快 解 。 对 于 给 定 的 问题 规模 ， 如 果 使 用 大 于 等 效率 


的 数 所 要 求 的 p 值 ， 并 行 执行 时 间 并 不 能 减 小 (由 于 成 本 最 优 与 等 效率 函数 之 间 的 等 价 性 )。 
一 般 说 来 ， 这 个 结论 对 于 并 行 系 统 是 不 成 立 的 ， 但 是 很 可 能 有 Te"“-w > 8( 72”)。 下 面 的 例题 
将 说 明 这 种 开行 系统 ， 
例 5.20 73"-” > 8( 77") 的 并 行 系统 

考虑 例 5.15 假 设 的 并 行 系统 ， 其 中 


T, — p372 十 pi/4W3/4 


(5-27) 
从 公式 (5-10)， 这 个 系统 的 并 行 运行 时 间 为 
W W3/4 
Tp 二 一 十 /2 一 一 一 
P DLA (5-28) 
用 例 5.18 的 方法 ， 
dh Ww ] YY 0 
pT tp pn 
] 3/2 1 3/4 3/4 
_ 一 一 一 王 一 0 
由 十 5 了 P 4 p 
p34 = Tw3/4 4 (wn 二 2W)1U2 
4 16 
= QO(W/4) 
p = QW) 
从 前 面 的 分 析 可 知 p = B@(W)。 在 公式 (5-28) 中 ， 用 po 代替 p， 得 
Trin = (YI) (5-29) 


根据 例 5.15 的 结果 ， 这 个 并 行 系统 的 总 等 效率 函数 为 B(p?)， 这 意味 着 能 成 本 最 优 地 使 用 
的 最 大 处 理 器 数目 为 B(WI3)。 在 公式 ($-28) 中 ， 将 p = B(W' 3) 代 入 ， 我 们 得 到 


Th = QO(W*/) (5-30) 
比较 公式 (5-29) 和 (5-30) 可 知 fy-” 渐 近 大 于 7” 。 国 


本 节 中 ， 我 们 看 到 了 两 种 类 型 并 行 系统 的 例子 :一 类 为 Ter-mw 渐 近 等 于 Tm ， 另 一 类 
为 Is”-” 渐 近 大 于 72™*。 本 书 提出 的 大 多 数 并 行 系统 为 第 一 类 。 使 用 渐 近 大 于 等 效率 函数 所 
需要 的 处 理 器 数 ， 就 能 使 执行 时 间 减 少 一 个 数量 级 的 并 行 系统 是 非常 少见 的 。 

在 对 任何 并 行 系统 推导 最 小 执行 时 间 时 ， 重 要 的 是 要 了 解 ， 能 使 用 的 最 大 处 理 器 数目 受 
到 并 行 算法 的 并 发 度 C(W) 的 限制 。 对 并 行 系统 而 言 (习题 5.13 和 5.14)，po 大 于 CCWD 的 可 能 性 
很 大 。 此 时 ，jpo 的 值 毫 无 意义 ， 并 且 Tm" 可 表示 为 
W + To(W, CW)) 


ip = CW) (5-31) 


> 
让 
心 
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5.6 并 行程 序 渐 近 分 析 


到 目前 为 止 ， 我 们 已 积累 了 一 个 非常 有 效 的 工具 库 用 于 定量 分 析 算 法 的 性 能 和 可 扩展 性 ，。 
下 面 将 说 明 如 何 利用 这 些 工 具 来 评估 求解 给 定 问 题 的 并 行程 序 。 通 常 ， 我 们 忽略 常数 因子 而 
关心 各 个 量 的 渐 近 特性 ， 因 为 这 样 往往 更 能 了 解 各 种 并 行程 序 的 相对 优点 和 缺点 。 

考虑 "个 数 的 列表 的 排序 问题 。 这 个 问题 的 最 快 串 行程 序 的 运行 时 间 为 On log n)。 对 于 一 
个 给 定 列表 的 排序 ， 我 们 考查 4 种 不 同 的 并 行 算法 A1、A2、A3 和 A4。4 种 算法 的 并 行 运行 时 
间 以 及 它们 可 用 的 处 理 器 的 数目 在 表 5-2 中 给 出 。 这 个 练习 的 目的 是 确定 哪个 算法 最 好 。 如 果 
速度 是 最 简单 的 度量 ， 则 7 最 小 的 算法 最 好 。 按 此 度量 ， 算 法 Al 最 好 ， 随 后 依次 为 A3、A4 和 
A2。 这 也 反映 在 这 样 的 事实 中 ， 这 组 算法 的 加 速 比 也 有 同样 的 顺序 。 

然而 ， 在 实际 情况 下 ， 我 们 很 少 能 有 像 算法 A1 所 要 求 的 ?个 处 理 器 。 再 者 ， 资 源 利用 率 
是 实际 程序 设计 的 一 个 重要 方面 。 所 以 我 们 必需 考查 每 个 算法 的 效率 如 何 。 这 种 算法 的 评估 
度量 提出 了 一 个 完全 不 同 的 景象 。 根 据 此 度量 ， 算 法 A2 和 A4 最 好 ， 其 次 为 A3 和 Al1。 表 5-2 最 
后 一 行 表示 算法 的 代价 。 从 这 行 中 可 以 看 出 ， 算 法 A1 和 A3 的 代价 高 于 串 行 运算 时 间 n log n， 
因此 ， 这 两 个 算法 没有 一 个 是 成 本 最 优 的。 但 是 ， 算 法 A2 和 A4 是 成 本 最 优 的 

这 组 算法 说 明 ， 重 要 的 是 先 了 解 并 行 算法 分 析 的 目的 和 使 用 适当 的 度量 。 这 是 因为 使 用 
不 同 的 度量 通常 可 能 导致 相互 矛盾 的 结果 。 


表 5-2 ”对 给 定 的 数字 列表 排序 的 4 种 不 同 算法 的 比较 。 表 中 显示 处 理 器 数目 . 
并 行 运行 时 间 、 加 速 比 、 效 率 和 pT。 乘 积 





算法 Al A2 A3 A4 
p n? logn n Vn 

1, | n Vn Vnlogn 
S nlogn logn Vn logn Vn 

E log n/n 1 log n/n ! 
PT 站 nlogn nm” nlogn 


5.7 其 他 可 扩展 性 的 度量 


入 们 已 提出 了 多 种 并 行 系统 可 扩展 性 的 其 他 度量 。 这 些 度量 专门 适用 于 不 同 的 系统 要 求 。 
例如 ， 在 实时 应 用 中 ， 其 目的 是 将 某 一 系统 扩充 为 在 特定 时 间 内 完成 某 个 任务 。 多 媒体 解压 缩 
就 属于 这 种 应 用 ， 其 中 ，MPEG 流 必须 以 每 秒 25 帧 的 速度 解压 缩 。 因此 ， 一 个 并 行 系统 必须 在 
40 毫 种 内 解码 单 帧 (或 通过 缓冲 ， 以 平均 40 毫 秒 1 帧 通过 缓冲 帧 ) 。 实 时 控制 也 要 用 到 这 种 应 用 ， 
其 中 控制 向 量 必须 实时 生成 。 另 外 ， 还 有 些 可 扩展 度量 考虑 了 物理 结构 的 限制 。 很 多 应 用 中 ， 
门 题 最 大 规模 不 受 时 间 、 效 率 或 基本 模型 所 限制 ， 但 是 受 计算 机 可 用 内 存 的 限制 。 在 这 些 情况 
下 ， 度 量 对 可 用 内 存 ( 与 处 理 器 数目 ) 的 增长 函数 作出 假设 ， 并 估计 并 行 系统 的 性 能 如 何 随 这 
样 的 扩展 变化 。 本 节 将 研究 一 些 相 关 的 度量 以 及 它们 在 各 种 并 行 应 用 中 如 何 使 用 ， 

可 扩展 加 速 比 ” 这 种 度量 被 定义 为 当 问题 规模 随处 理 器 数目 线性 增加 时 获得 的 加 速 比 。 如 
术 可 扩展 加 速 比 与 处 理 器 数目 的 关系 曲线 近似 为 线性 ， 则 认为 并 行 系统 是 可 扩展 的 。 如 采 禾 
谍 的 并 行 算法 具有 线性 或 近似 线性 等 效率 函数 ， 则 这 种 度量 与 等 效率 有 关 。 此 有 时， 可 扩展 加 
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速 比 度量 提供 的 结果 很 接近 等 效率 分 析 的 结果 ， 并 且 可 扩展 加 速 比 与 处 理 器 数目 呈 线 性 或 近 
似 线性 关系 。 对 于 等 效率 较 差 的 并 行 系统 ， 由 这 两 种 度量 提供 的 结果 可 能 差异 较 大 。 此 时 ， 
可 扩展 加 速 比 与 处 理 器 数目 的 关系 曲线 是 亚 线性 的 。 

人 们 已 研究 了 可 扩展 加 速 比 两 个 广义 的 概念 。 它 们 在 方法 上 不 同 于 问题 规模 随 着 处 理 右 
数目 扩展 的 方法 。 在 其 中 一 个 方法 中 ， 问 题 的 规模 增加 到 存 满 并 行 计 算 机 的 可 用 内 存 。 这 里 
假定 系统 的 聚集 内 存 随处 理 器 数目 而 增加 。 在 另 一 种 方法 中 ， 问 题 规模 随 p 的 增加 取决 于 一 个 
执行 间 的 上 界 。 : 

例 5.21 垂 阵 - 问 量 相 乘 算法 中 内 存 和 时 间 受 限 的 可 扩展 加 速 比 


n x n 阶 矩阵 与 一 维 向 量 相 乘 的 串 行 运行 时 间 为 f. n*?， 其 中 t 为 单个 乘法 ~ 加 法 运算 的 时 间 。 
使 用 简单 的 并 行 算法 ， 相 应 的 并 行 运行 时 间 为 


nz 


加 速 比 5 为 


fan? 


到 
fe p 十 加 logp+t tun (5-32) 


223 


算法 总 的 内 存 需求 为 8(n?)。 下 面 我 们 考虑 扩展 问题 规模 的 两 种 情况 。 在 内 存 受 限 的 扩展 
中 ,假设 并 行 系统 的 内 存 随 处 理 器 数目 线性 增加 ， 即 m = 8B(p)， 对 目前 大 多 数 并 行 平台 而 言 ， 
这 种 假设 是 合理 的 。 由 于 m = 8(z)， 对 某 个 常数 c 可 得 天 = cxP。 因 此 ， 可 扩展 加 速 比 $ 为 


/ - iccxp 


te +tslogp+tw Vcxp 


/ ciP 


4 = CO 
Cc2+c3logp+cavp 


在 限制 情况 下 ，5' = O(VP) 。 
在 时 间 受 限 的 扩展 情况 下 ，T, = O(n?/p)。 由 于 这 是 恒定 的 限制 ， 所 以 n? = OO)。 我 们 注 
意 这 种 情况 与 内 存 受 限 的 情况 相同 。 这 种 情况 的 发 生 是 因为 内 存 和 算法 的 运行 时 间 浙 近 相 等 。 
| 


例 5.22 矩阵 -矩阵 相 乘 算法 中 内 存 和 时 间 受 限 的 可 扩展 加 速 比 _ 


两 个 n x n 阶 矩阵 相 乘 的 串 行 运算 时 间 为 1. m?， 其 中 ts 如 前 所 述 ， 为 单个 乘法 -加 法 运算 的 
时 间 。 使 用 简单 的 并 行 算法 ， 相 应 的 并 行 运行 时 间 为 
Tp oi] 2 志 
三 fc 一 3 一 
P Dp +itlogp+2t -万 
加 速 比 5$ 为 


tn 


fc 切 十 加 log p + 21u 号 (5-33) 
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算法 的 总 内 存 需求 为 8(n?)。 让 我 们 考虑 问题 扩展 的 两 种 情况 。 在 内 存 受 限 的 情况 下 ， 如 
前 所 述 ， 假 设 并 行 系统 的 内 存 随处 理 器 数目 线性 增加 ， 即 m = B@(p)。 由 于 m = 8B(m?)， 对 某 个 
常数 c 可 得 中 =c xp。 因 此 ， 可 扩展 加 速 比 5' 为 


， te(c x p)!1” 


一 一 -一 -一 一 一 一 一 -一 -一 OO(P) 
(CX 万 )15 CX 
fc + ts logp + 2tw A 


在 时 间 受 限 的 扩展 情况 下 ，7T, = O(nYp)。 由 于 这 是 恒定 的 限制 ， 所 以 n? = 0(p)， 或 2 = 
cx 《对 某 个 常数 c)。 因 此 ， 时 间 受 限 的 加 速 比 $ "为 
1 lccxp 
tc +tslogp + 2f, Cp 


这 个 例题 说 明 : 和 矩阵 相 屠 时 ， 内 存 受 限 的 扩展 产生 线性 加 速 比 ， 而 时 间 受 限 的 扩展 产生 
亚 线性 加 速 比 。 图 


串 行 部 分 f ”根据 实验 确定 的 串 行 部 分 /可 用 来 定量 分 析 固 定 问题 规模 并 行 系统 的 性 能 。 下 
面 我 们 来 考虑 一 种 情况 ， 即 一 个 计算 的 串 行 运行 时 间 能 被 分 解 为 一 个 完全 并 行 的 和 一 个 完全 
串 行 的 部 分 ， 即 


= 0(p2/0) 


W = Ter 十 Tpar 
式 中 Te 和 7 分 别 对 应 于 完全 串 行 和 完全 并 行 部 分 。 据 此 可 得 


T 
Tp 一 Ter 十 一 
p 





这 里 假定 了 所 有 其 他 并 行 总 开销 ， 如 超额 计算 和 通信 ， 都 包含 在 串 行 部 分 To, 中 。 从 这 些 公式 
可 得 





W 一 er 
Tp = Ter + 一 一 一 一 (5-34) 
并 行程 序 的 串 行 部 分 /定义 为 
Tser 
| i=Ww 
Tp = fx W+—— 
Tr 1 
w = /+ 
由 于 5S = W/T, ， 我 们 有 
l 加 lf 
s/t yp 
求解 /， 得 到 
1/4 一 
f= / /Pp 


~ 1-1p ( 5-35 ) 
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容易 看 出 , f 的 值 越 小 越 好 ， 因 为 越 小 的 值 能 带 来 越 高 的 效率 。 如 果 f 随处 理 器 数目 增加 ， 
则 它 被 看 作 通 信 开 销 增加 以 及 可 扩展 性 下 降 的 指示 器 。 


例 5.23 和 托 阵 -向 量 相 乘 的 串 行 部 分 
由 公式 (5-35) 和 (5-32)， 我 们 有 


n2 


1 1 
1 一 (5-36) 
上 述 表 达 式 可 简化 为 
fplogp+ tunp 、 ] 
ten2 “ 一 1 
~ logp+itwn 
1 ten2 


该 公式 的 分 母 为 算法 的 串 行 运行 时 间 ， 而 分 子 对 应 于 并 行 执行 的 开销 。 加 


除 这 些 度量 外 ， 文 献 中 也 提 到 很 多 其 他 的 性 能 度量 。 我 们 把 与 这 些 有 关 的 参考 书目 介绍 
给 感 兴趣 的 读者 。 


5.8 书目 评注 


为 有 效 地 使 用 当今 大 规模 的 并 行 计 算 机 ， 必 需 通过 增加 更 多 的 处 理 器 来 求解 更 大 的 问题 。 
然而 ， 当 问题 规模 固定 时 ， 必 需 在 效率 和 并 行 运算 时 间 之 间 获 得 最 好 的 折 中 。 对 规模 固定 的 
问题 ， 多 位 研究 者 对 性 能 进行 了 讨论 [FK89, GK93a, KF90, NW88, TL90, Wor90]。 在 大 多 数 情 
况 下 ， 由 增加 处 理 器 数目 所 带 来 的 额外 计算 能 力 能 用 来 求解 更 大 的 问题 。 然 而 ， 在 茶 些 情况 
下 ， 可 以 采用 不 同 的 方法 增加 问题 规模 ， 并 且 ， 使 用 各 种 限制 可 以 引导 提高 相对 于 处 理 器 数 
目的 工作 负载 [SHG93]。Gustafson 等 [GMB88, Gus88, Gus92]、Sun 和 Ni[sn90;sn931] 以 及 
Worley[Wor90, Wor88, Wor91] 研究 了 时 间 受 限 的 扩展 和 内 存 受 限 的 扩展 (习题 59 ) 

一 种 重要 的 情况 是 最 有 效 地 利用 并 行 系统 ; 换言之 ， 我 们 希望 并 行 系统 的 总 性 能 随 p 线 性 
增加 。 这 种 可 能 性 仅 局 限于 可 扩展 的 并 行 系统 ， 这 是 这 样 一 种 系统 ， 对 任意 大 的 pp， 只 要 增加 
问题 规模 ， 就 能 使 效率 保持 不 变 。 对 这 种 系统 ， 使 用 等 效率 函数 或 相关 的 度量 是 很 自然 的 
[GGK93, CD87, KR87b，KRS88]。 研 究 人 员 发 现 ， 等 效率 分 析 对 于 描述 各 种 并 行 算法 的 可 扩 


f = 


展 性 很 有 用 [GK91, GK93b, GKS92, HX98, KN91, KR87b, KR89, KS91b, RS90b, SKAT91b, 


TL90, WS89, WS91]。Gupta 和 Kumar[GK93a， 9 了 在 圈定 时 间 的 情况 下 等 效率 函数 的 
tral 他 们 指出 ， 如 果 等 效率 函数 大 于 B(p)， 当 执行 时 间 保 持 圈定 时 ， 不 管用 多 少 处 理 
， 问 题 规模 都 不 能 无 限 地 增加 。 他 分 析 了 与 末 有 类 并 和 和 人 
EL go. FK89, MS88, NW88, TL90, Zho89, ZRV89]。 z 
Kruskal，Rudolph 和 Snir[KRS88] 定 义 并 行 效率 (parallel efficient, PE) 问题 的 概念 。 他 们 
的 定义 与 等 效率 函数 的 概念 有 关 。PE 类 中 的 问题 在 某 些 效率 有 具备 多 项 式 等 效率 函数 的 算法 。 
类 PE 构成 多 项 式 等 效率 函数 算法 和 较 差 的 等 效率 函数 算法 之 间 的 一 个 重要 区 别 。 对 多 种 并 行 
计算 模型 和 互 连 方案 ，Kruskal 等 证 明了 PE 的 不 变性 。 这 个 结果 的 一 个 重要 推论 是 ， 在 一 种 结 
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构 中 ， 具 有 多 项 式 等 效率 的 算法 ， 也 会 在 很 多 其 他 结构 中 县 有 多 项 式 等 效率 。 但 是 也 存在 例 
外 ， 例 如 ，Gupta 和 Kumar[GK93bj] 指 出 ， 快 速 傅 里 叶 变 换算 法 在 超 立 方 体 上 有 多 项 式 等 效率 ， 
但 在 网 格 上 为 指数 等 效率 。 

Vitter 和 Simons[VS86] 定 义 称 之 为 PC* 的 一 类 问题 。 在 PRAM 上 具有 有 效 并 行 算法 的 问题 
就 属于 PC*。 类 P (多 项 式 时 间 类 ) 中 的 问题 ， 如 果 有 一 个 能 使 用 多 项 式 (通过 输入 大 小 ) 处 
邮 吕 数 月 的 PRAM 上 的 并 了 算法 ， 并 达到 一 个 最 小 的 效率 E， 则 问题 属于 PC*。 任 何 PC* 中 的 
问题 至 少 有 一 个 并 行 算法 ， 使 得 对 于 效率 E， 其 等 效率 函数 存在 并 且 是 一 个 多 项 式 ，。 

在 Kumar 和 Gupta [KG94] 的 综述 中 ， 有 关于 多 种 可 扩展 性 和 性 能 度量 的 讨论 。 另 外 ， 除 
了 到 目前 为 止 已 引用 的 度量 外 ， 也 提出 了 很 多 其 他 关于 并 行 系统 可 扩展 性 和 性 能 的 度量 
[BW89, CR89, CR91, Fla90, Hil90, Kun86, Mol87, MR, NA91, SG91, SR91, SZ96, VC89]。 

Flatt 和 Kennedy[FK89, Fla90] 指 出 ， 如 果 开 销 函 数 满足 某 个 数学 特性 ， 则 存在 一 个 唯一 的 
处 理 器 数目 的 值 p。， 对 给 定 的 W，T7, 为 最 小 值 。 他 们 的 分 析 很 大 程度 上 依赖 于 7, 的 一 个 特性 ， 
即 7。 > 8B(p)。Gupta 和 Kumar[GK93a] 指 出 ， 有 的 并 行 系统 不 满足 这 个 条 件 ， 在 这 情况 下 ， 峰 
值 性 能 点 由 所 使 用 算法 的 并 发 度 决 定 。 

Marinescu 和 Rice[MR] 提 出 了 一 个 模型 ， 用 来 描述 和 分 析 在 MIMD 计 算 机 上 的 并 行 计 算 ， 
模型 中 通过 控制 线程 数 p 划 分 计算 ， 事 件数 g(p) 作 为 p 的 函数 。 他 们 假设 每 个 事件 都 有 一 个 固定 
的 持续 时 间 9， 因 此 7, = 6g(p)。 根 据 对 7T, 的 假设 ， 他 们 得 出 结论 : 如 果 T, = B(p)， 随 着 处 理 器 
数目 增加 ， 加 速 比 将 在 某 个 定 值 饱 和 。 并 且 ， 如 果 T, = 8B(p”")， 则 加 速 比 将 渐 近 接近 于 零 ， 其 
中 m > 2。 对 更 广泛 的 一 类 开销 函数 ，Gupta 和 Kumar[GK93a] 推 广 了 这 些 结果 。 他 们 指出 ， 如 
果 T。, < 8B(p)， 则 加 速 比 将 在 某 个 最 大 值 饱和 。 如 果 T。> 8Ww)， 则 加 速 比 达到 一 个 最 大 值 ， 然 
后 随 p 单 调 下 降 。 

Eager 等 [EZL89]，Tang 和 Li[TL90] 提 出 了 一 个 并 行 系统 的 最 优化 准则 ， 以 便 在 效率 和 加 
速 比 之 间 找 到 一 个 平衡 。 他 们 提出 ， 在 运算 时 间 和 效率 的 曲线 上 ， 好 的 操作 点 位 于 增加 每 个 
处 理 强 带 来 的 利益 大 约 为 1/2 处 ， 换 言 之 ， 效 率 为 0.5。 他 们 得 出 ， 对 于 T, = 8B(p)， 这 等 价 于 在 
ES 积 为 最 大 的 操作 点 ， 或 在 P(T, )? 为 最 小 的 操作 点 。 这 个 结论 是 Gupta 和 Kumar[GK93a] 提 出 
的 更 一 般 情况 的 特例 。 

在 同时 执行 的 不 同 可 扩展 性 的 多 个 应 用 中 ， Belkhal 和 Banerjee[BB90] ，Leuze 等 [LDP89]， 
Ma 和 Shea[MS88] 以 及 Park 和 Dowdy[PD89] 解 决 了 并 行 计算 机 处 理 器 最 优 划分 的 重要 问题 。 


习题 


5.1 (Amdahi 定 律 [Amd67]) 如 有 果 规 模 为 W 的 问题 有 和 行 分 细 ， 证 明 ， 不 管用 多 少 处 
理 帮 ，W /Ws 都 是 其 加 速 比 的 上 界 。 
”5.2 ( 超 线 性 加 速 比 ) 考虑 图 5-10a 所 示 的 搜索 树 ， 其 中 黑色 节点 代表 解 。 
a) 如 采 一 个 串 行 搜索 树 用 标准 次 度 优先 搜索 (DFS ) 算法 实现 (11.2.1 节 )， 如 果 遍 历 树 
的 每 条 绝 花 费 一 个 单位 时 间 ， 那 么 需要 多 少时 间 才 能 找到 解 ? 
b) 假设 树 在 执行 搜索 任务 的 两 个 处 理 器 之 间 划 分 ， 如 图 5-10b 所 示 。 如 果 两 个 处 理 器 在 
它们 各 自 树 的 一 半 执 行 一 个 DFS， 那 么 需要 多 少时 间 才 能 找到 解 ” 加速 比 为 多 少 ? 是 
盏 存在 异常 加 速 比 ? 如 果 存 在 ， 试 解释 这 样 的 异常 。 
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天 -一 解 
a) 用 一 个 处 理 器 的 DFS b) 用 两 个 处 理 器 的 DFS 


图 5-10 并 行 深 度 优先 搜索 中 的 超 线性 (?) 加 速 比 





c) z d) 


图 5-11 习题 5.3 的 依赖 图 


5.3 (并 行 计算 的 DAG 模 型 ) 并 行 计 算 通常 能 用 依赖 图 表示 。 图 5-11 显 示 4 种 这 样 的 依赖 
图 。 如 果 一 个 程序 能 被 分 解 为 几 个 任务 ， 则 图 的 每 一 个 节点 伐 表 一 个 任务 。 图 的 有 向 边 表示 
任务 间 的 依赖 关系 ， 或 为 保证 任务 执行 得 到 正确 结果 需 遵 守 的 顺序 。 依 赖 图 中 的 一 个 节点 可 
以 被 调度 执行 ， 只 要 有 人 和 射 边 到 达 该 节点 的 所 有 节点 上 的 任务 完成 执行 。 如 图 $-1lb， 只 有 在 
很 节点 的 任务 完成 后 ， 从 根部 开始 的 第 2 层 节 点 才能 开始 执行 。 任 何 无 死 锁 的 依赖 图 必须 是 一 
个 有 向 无 国 图 (DAG) ; 即 图 中 没有 圈 。 如 果 有 足够 多 的 处 理 器 ， 则 所 有 调度 执行 的 节点 都 
能 并 行 地 工作 。 如 果 N 为 图 中 节点 数 ，n 为 整数 ， 则 对 图 4) 和 b) N = 2* -1， 对 图 c) N = 2"， 
对 图 d) N = nln + 1)/2 (图 a) 和 b) 用 n = 4 绘制 ， 图 c) 和 d) 用 n = 8 绘制 )。 假 设 对 于 每 一 种 
图 表示 的 算法 ， 每 个 任务 花费 一 个 单位 时 间 以 及 处 理 器 间 的 通信 时 间 为 零 
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1) 计算 并 发 度 。 
2) 如 果 可 用 的 处 理 器 数目 不 受 限制 ， 试 计算 最 大 可 能 的 加 速 比 。 
3) 计算 加 速 比 、 效 率 及 开销 函数 的 值 ， 如 果 处 理 器 数目 为 i) 与 并 发 度 相 同 ，ii) 等 于 
并 发 度 的 一 半 。 
5.4 考虑 包含 p 个 处 理 器 的 并 行 系统 ， 求 解 由 W 个 工作 单元 组 成 的 问题 。 证 明 ， 如 果 系 统 
的 等 效率 函数 差 于 (大于) 8@(p)， 则 问题 不 能 用 p = 8B(W) 成 本 最 优 地 求解 。 反 之 ， 如 果 只 对 
P< eB(W) 能 够 成 本 最 优 地 求解 问题 ， 则 并 行 系统 的 等 效率 函数 比 线性 差 。 
5.5 (可 扩展 加 速 比 ) 可 扩展 加 速 比 (scaled speedup) 定义 为 当 问 题 规模 随处 理 器 数目 
线性 增加 时 获得 的 加 速 比 ; 即 是 说 ， 如 果 以 W 作 为 对 单个 处 理 器 的 基本 问题 规模 ， 则 
可 扩展 加 速 比 = -2 一 
T,(pW,p) (5-37) 
对 于 p 个 处 理 器 上 的 a 个 数 相 加 问题 ( 例 5.1)， 假设 对 p = 1 的 基本 问题 是 256 个 数 的 相 加 ， 
画 出 加 速 比 曲线 。 分 别 使 用 p = 1、4、16、64 和 256。 假 设 在 两 个 处 理 器 之 间 1 个 数 的 通信 花费 
10 个 时 间 单 位 ， 两 个 数 的 相 加 花费 1 个 时 间 单 位 。 对 基本 问题 规模 画 出 标准 加 速 比 曲 线 ， 并 同 
可 扩展 加 速 比 曲线 比较 。 
提示 : 并 行 运行 时 间 为 (n/p-1) + 11 logp。 
5.6 ”对 习题 5.5 画 出 第 3 条 加 速 比 曲 线 ， 其 中 问题 规模 按 等 效率 函数 B(p log p) 扩 大 。 对 7 
使 用 相同 的 表达 式 。 
提示 : 用 这 种 方法 扩大 问题 规模 的 可 扩展 加 速 比 由 下 面 的 公式 给 出 : 
等 效率 可 扩展 加 速 比 = PW lo&P 
T,(pW log p,p) 
5.7 ”对 p 个 处 理 器 上 n 个 数 相 加 的 问题 画 出 等 效率 曲线 ,分 别 对 应 于 标准 加 速 比 曲 线 ( 习 
题 5.5 )， 可 扩展 加 速 比 曲 线 (习题 5.5)， 以 及 当 问 题 规模 按 等 效率 函数 增加 时 的 加 速 比 曲线 
(习题 5.6)。 
5.8 增加 处 理 器 数目 而 不 增加 总 工作 负荷 的 缺陷 是 ， 加 速 比 不 会 随处 理 器 数目 线性 增加 ， 
且 效 率 会 单调 下 降 。 根 据 从 习题 5.3 和 5.7 中 得 到 的 经 验 ， 讨 论 在 通常 情况 下 可 扩展 加 速 比 是 否 
随处 理 器 数目 线性 增加 。 如 果 在 某 并 行 系统 中 ， 可 扩展 加 速 比 曲 线 与 根据 等 效率 函数 增加 问 
题 规模 所 确定 的 加 速 比 曲 线 相 匹配 ， 试 对 并 行 系统 的 等 效率 函数 加 以 讨论 。 
5.9 (时 间 爱 限 的 扩展 ) 对 p = 1、4、16、64、256、1024 和 4096， 使 用 习题 5.5 中 关于 也 
的 表达 式 ， 如 果 总 执行 时 间 不 超过 512 个 时 间 单 位 ， 那 么 能 求解 的 最 大 问题 规模 是 多 少 ? 一 般 
情况 下 ， 在 固定 的 时 间 里 ， 如 果 处 理 器 数目 没有 限制 ， 可 能 求解 一 个 任意 大 的 问题 吗 ? 为 什 
和 | 
5.10 (前 纺 和 ) 考虑 在 x 个 处 理 器 上 求 n 个 数 前 级 和 的 问题 ( 例 5.1)。 算 法 的 并 行 运行 时 
间 、 加 速 比 以 及 效率 是 多 少 ? 假设 两 个 数 相 加 花费 1 个 单位 时 间 ， 两 个 处 理 器 之 间 1 个 数 的 通 
信人 花费 10 个 单位 时 间 。 算 法 是 成 本 最 优 的 吗 ? 
5.11 在 p 个 处 理 器 上 计算 "个 数 的 所 有 前 缀 和， 其 中 p < m， 设 计 一 个 前 绥 和 算法 (习题 
5.10) 的 成 本 最 优 版 本 。 假 设 两 个 数 相 加 花费 1 个 单位 时 间 ， 两 个 处 理 器 之 间 1 个 数 的 通信 花 
费 10 个 单位 时 间 ， 推 导 7, 、S5、E、 成 本 以 及 等 效率 函数 的 表达 式 。 
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5.12 {GK93a] 试 证 明 ， 对 给 定 的 问题 规模 ， 如 果 7T, < 6@(p)， 则 并 行 执 行 时 间 将 随 p 增 加 而 
继续 减 小 ， 并 且 将 渐 近 地 接近 一 个 常数 值 。 再 证 明 ， 如 果 T,> B(p)， 则 随 p 先 减 小 后 增加 。 
因此 ， 它 有 一 个 明显 的 最 小 值 。 

5.13 ”对 一 个 长 度 为 7 的 输入 序列 (公式 (13-4) 中 上 = 0)， 具 有 P 个 处 理 器 的 FFT 算 法 并 行 
实现 的 并 行 运行 时 间 为 7, = (n/p)log n +t, (n/p)log p。 算 法 能 用 于 一 个 n 点 FFT 的 最 大 处 理 器 数 
为 1。 问 po 值 (满足 公式 《5-21) 的 p 值 ) 是 多 少 ? 4 = 10 时 Tm 的 值 是 多 少 ? 

5.14 [GK93a] 考虑 有 相同 系统 开销 范 数 和 不 同 并 发 度 的 两 个 并 行 系统 。 令 两 个 并 行 系统 
的 系统 开销 函数 为 WP + 0.1 W233p。 画 出 W = 105，1 《p< 2048 时 7T, 作 为 p 的 函数 的 曲线 。 如 
果 第 一 个 算法 的 并 发 度 为 W 3， 第 二 个 算法 的 并 发 度 为 WP， 计算 两 个 并 行 系统 的 Tm" 值 。 在 
T,(p) 曲 线 上 ， 在 它们 各 自 达 到 最 小 运行 时 间 的 点 处 ， 计 算 两 个 并 行 系统 的 成 本 和 效率 。 
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第 6 章 “使 用 消息 传递 模式 编程 


大 们 已 经 开发 了 许多 编程 语言 和 程序 库 用 于 显 式 并 行 编 程 ， 这 些 编程 语言 及 程序 库 的 区 


别 在 于 程序 员 可 使 用 的 地 址 空间 ， 对 并 发 活动 的 同步 程度 ， 以 及 程序 的 多 重 性 。 在 并 行 计算 
机 上 编程 ， 消 息 传递 编程 模式 (message-passing programming paradigm ) 是 最 老 也 是 最 广泛 
使 用 的 方法 之 一 。 它 的 根源 可 以 追溯 到 并 行 处 理 的 早期 阶段 ， 而 其 广泛 应 用 可 能 是 由 于 对 底 
层 硬件 的 需求 最 低 。 

在 本 章 中 ， 首 先 描述 消息 传递 编程 模式 的 基本 概念 ， 然 后 讨论 使 用 标准 的 和 广泛 使 用 的 
消息 传递 接口 的 各 种 消息 传递 编程 技巧 。 


6.1 消息 传递 编程 的 原理 


消息 传递 编程 模式 有 两 个 关键 特性 ， 其 一 是 假设 存在 一 个 分 块 地 址 空间 ， 其 二 是 只 支持 
显 式 并 行 化 。 

逻辑 上 把 支持 消 息 传递 模式 的 计算 机 视 为 含有 p 个 进程 ， 每 个 进程 都 有 独占 的 地 址 空间 。 
这 种 观点 的 例子 可 以 从 工作 站 机 群 及 非 共享 地 址 空间 多 计算 机 看 到 。 分 块 地 址 空间 的 直接 含 
义 有 两 个 。 第 一 ， 每 一 数据 单元 必须 属于 空间 的 分 块 之 一 ; 因此 ， 数 据 必须 被 显 式 地 划分 和 
存放 。 这 会 使 编程 更 复杂 ， 但 能 促进 存 取 本 地 化 ， 这 一 点 对 于 在 非 UMA 结 构 上 获得 高 性 能 是 
至 关 重 要 的 ， 因 为 在 这 种 结构 中 ， 处 理 器 存 取 本 地 数据 的 速度 要 比 存 取 远 程 数 据 快 得 多 。 第 
二 ， 所 有 的 相互 操作 (只 读 或 读 / 写 ) 需要 两 个 进程 间 的 协作 一 一 拥有 数据 的 进程 及 想 要 存 取 
数据 的 进程 。 这 种 对 协作 的 要 求 由 于 多 种 原因 使 编程 变 得 更 复杂 。 拥 有 数据 的 进程 必须 参与 
相互 操作 ， 哪 怕 它 与 请 求 进 程 的 事件 没有 逻辑 联系 。 在 某 些 情 况 下 ， 这 种 要 求 导致 编 出 不 目 
然 的 程序 。 特 别 ， 如 果 相 互 操作 是 动态 的 或 非 结 构 化 的 ， 这 种 模式 下 代码 编写 的 复杂 度 就 会 
非常 高 。 然 而 ， 显 式 双 向 交互 的 一 个 主要 优点 在 于 程序 员 能 完全 知道 非 本 地 交互 的 全 部 成 本 ， 
并 更 有 可 能 设计 算法 (以 及 映射 ) 使 交互 最 大 限度 减少 。 这 种 编程 模式 的 另 一 个 主要 优点 在 
于 它 能 够 有 效 地 在 多 种 体系 结构 中 实现 。 

消息 传递 编程 模式 要 求 由 程序 员 显 式 地 编写 出 并 行 程序。 也 就 是 说 ， 程序 员 要 分 析 串 行 
算法 /应 用 程序 ， 对 计算 进行 分 解 ， 并 提取 出 并 发 操作 。 因 此 ， 使 用 消息 传递 模式 的 编程 很 困 
难 ， 且 要 求 很 高 的 智能 ; 但 是 ， 从 另 一 方面 讲 ， 篇 号 较 好 的 消息 传递 程 序 往往 能 得 到 很 好 的 
性 能 和 扩展 到 非常 多 的 进程 。 

消息 传递 程序 的 结构 人 们 通常 使 用 弄 步 【asynchronous) 或 松散 同步 (loosely 
synchronous ) 模式 来 编写 消息 传递 程序 。 在 异步 模式 中 ， 所 有 并 发 的 任务 都 异步 执行 。 这 使 
得 实现 任何 并 行 算法 成 为 可 能 。 然 而 ， 这 样 的 程序 很 难 理解 ， 并 且 由 于 存在 竞争 条 件 可 能 导 
致 不 确定 的 行为 。 松 散 同 步 程序 是 这 两 个 极端 间 的 很 好 的 折 囊 方案 。 在 这 种 程序 中 ， 任 务 或 
任务 的 子 集 同步 执行 交互 。 然 而 ， 在 这 些 交互 之 间 ， 任 务 的 执行 是 完全 异步 的 。 由 于 交互 同 
步 发 生 ， 很 容易 理解 程序 ， 许 多 已 知 的 并 行 算法 能 够 很 自然 地 用 松散 同步 程序 来 实现 。 

从 最 一 般 的 形式 来 看 ， 消 息 传递 模式 支持 在 p 个 进程 的 每 个 进程 中 执行 一 个 不 同 的 程序 。 
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这 样 就 给 并 行 编程 带 来 非常 大 的 灵活 性 ， 但 也 造成 编写 并 行程 序 的 工作 难以 扩展 。 凤 此， 绝 
大 多 数 消息 传递 程序 使 用 单程 序 多 数据 (single program multiple data，SPMD ) 方法 来 编写 。 
在 SPMD 程 序 中 ， 除 了 在 很 少 进程 (如 “ 根 ” 进 程 ) 以 外 ,不同 进 程 中 执行 的 代码 相间 。 这 并 
不 表示 进程 以 锁 步 的 方式 工作 。 在 极端 的 情况 下 ， 即 使 在 SPMD 程 序 中 ， 每 个 进程 也 会 执行 不 
同 的 代码 (程序 中 含有 一 个 与 每 个 进程 代码 执行 有 关 的 大 型 选择 语句 )。 但 除了 这 种 退化 的 选 
择 外 ， 绝 大 多 数 进程 都 执行 同样 的 代码 。SPMD 程 序 可 以 是 松散 同步 的 ， 也 可 以 是 完全 异步 
的 。 


6.2 操作 构件 : 发 送 和 接收 操作 


由 于 交互 要 通过 发 送 及 接收 消息 来 完成 ， 消 息 传递 编程 模式 中 最 基本 的 操作 就 是 send 
(发 送 ) 和 receive (接收 )。 采 用 最 简化 的 形式 时 ， 这 些 操作 的 原型 定义 如 下 : 


send (void *sendbuf, int nelems, int dest) 
recelve (void *recvbuf, int nelems, int source) 


sendbuf 指 向 存储 待 发 送 数据 的 缓冲 区 ，recvbuf 指 向 存储 待 接收 教 据 的 缓冲 区 ， 
nelems 是 待 发 送 和 接收 的 数据 单元 的 数目 ，dest 是 接收 数据 进程 的 标识 符 ， source 是 发 
送 数据 进程 的 标识 各 

然而 ， 仅仅 停留 在 这 些 解 释 上 会 使 如 何 实现 这 些 功 能 的 编程 和 性 能 细节 过 于 简单 化 。 为 
了 进一步 研究 这 些 函 数 ， 让 我 们 从 下 面 简单 的 代码 段 例子 开始 ， 将 一 个 进程 的 数据 送 到 另 一 
个 进程 中 : 


| B0 | Pl 
2 ' . 
3 a = 100; ， receive{&ka, 1, 0) 


4 send (&a, 1, 1); printf ("$d\n", al) 
5 a = 0; . ， 


在 这 个 简单 例子 中 ， 进 程 P0 发 送 消息 到 进程 P1，P1 接 收 消息 并 输出 消息 。 值 得 注意 的 是 ， 
进程 P0 在 发 送 数 据 后 立刻 将 a 的 值 改 变 为 0。 发 送 操作 的 语义 要 求 进程 P1 接 收 到 的 数据 必须 是 
100 而 不 是 0。 也 就 是 说 ， 发 送 操作 时 a 的 值 必须 是 进程 P1 接 收 到 的 值 。 

要 保证 发 送 和 接收 的 语义 看 上 去 可 能 很 直观 。 然 而 ， 由 于 发 送 和 接收 操作 的 实现 方式 不 
同 ， 情 况 未 必 如 此 。 绝 大 多 数 消 息 传递 平台 都 有 另外 的 硬件 来 支持 消息 的 发 送 和 接收 。 它 们 
能 支持 DMA (直接 内 存 访问 ) 和 使 用 网 络 接 口 硬 件 的 异步 消息 传输 。 网 络 接 口 能 允许 消息 从 
内 存 缓冲 区 传 到 需要 的 位 置 ， 而 不 需要 CPU 的 干预 。 同 样 ，DMA 人 允许 将 某 一 内 存 位 置 处 的 数 
据 复 制 到 另 一 位 置 (如 通信 缓冲 ) 而 不 需要 CPU 的 支持 (一 旦 DMA 编 程 完 毕 )。 因 此 ， 如 果 
发 送 操作 对 通信 硬件 编程 ， 并 在 通信 操作 完成 前 返回 ， 进 程 P1 就 有 可 能 接收 到 0 而 不 是 100。 

虽然 这 种 情况 是 人 们 不 希望 看 到 的 ， 但 出 于 性 能 方面 的 原因 ， 人 们 又 支持 这 样 的 发 送 操 
作 ， 在 本 节 的 剩余 部 分 将 讨论 在 这 样 的 硬件 环境 下 的 发 送 和 接收 操作 ， 并 提出 各 种 实现 这 些 
操作 的 细节 及 消息 传递 协议 来 保证 发 送 和 接收 操作 的 语义 。 


6.2.1 阻塞 式 消息 传递 操作 


要 解决 上 面 代码 段 提 出 的 问题 ， 一 个 简单 的 方法 是 让 发 送 操作 在 代码 语义 上 安全 时 才 返 
回 。 这 句 话 的 意思 不 是 说 发 送 操作 要 等 到 接收 方 收 到 数据 后 才 返 回 ， 只 是 表示 发 送 操作 阻塞 ， 
直到 能 够 保证 代码 的 语义 不 被 破坏 才 返 回 ， 不 管 程序 后 面 会 出 现 什么 情况 。 有 两 种 机 制 可 以 
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实现 此 方法 。 

1. 阻塞 式 无 缓冲 发 送 /接收 

第 一 种 方法 是 ， 发 送 操作 在 接收 进程 处 遇 到 相应 的 接收 操作 前 不 返回 。 在 这 种 情况 下 ， 
消息 发 出 ， 发 送 操作 在 通信 操作 完毕 后 返回 。 通 常 这 个 过 程 包含 发 送 进程 和 接收 进程 之 间 的 
提 手 。 发 送 进程 发 送 一 个 与 接收 进程 通信 的 请 求 。 当 接收 进程 遇 到 了 接收 目标 ， 就 会 响应 请 
求 。 发 送 进程 在 收 到 响应 后 启动 传输 操作 。 访 操作 如 图 6-1 所 示 。 因 为 在 发 送 端 和 接收 端 邦 没 
有 缓冲 区 ， 这 个 操作 也 称 为 无 线 冲 阻塞 式 操作 (non-buffered blocking operation ) 。 


发 送 进程 接收 进程 。 ”发送 进程 接收 进程 。 发 送 进程 接收 进程 


pd _、 国 请求 发 送 请 求 发 送 | 
| 可 以 发 送 图 入 国 可 以 肥 这 四 “上 且 演 于 


Bt os x 


a) 发 送 方 先行 ; 在 b) 发 送 方 和 接收 方 同时 c) 接收 方 先 行 ;在 接 
发 送 方 空闲 进行 ; 空闲 最 少 收 方 空闲 
图 6-1 阻塞 式 无 缓冲 发 送 / 接 收 操作 的 握手 ， 容 易 看 出 当 发 送 方 和 
接收 方 不 能 同时 到 友 通 信 点 时 ， 会 出 现 严重 的 空闲 开 销 


阻塞 式 无 缓冲 操作 中 的 空闲 开销 ”图 6-1 中 展示 三 种 情形 ， 即 发 送 在 接收 发 出 前 到 达 ， 发 
送 和 接收 几乎 同时 发 出 ， 以 及 接收 在 发 送 到 达 前 发 出 。 在 a) 和 c) 中 ， 注 意 在 发 送 和 接收 进 
程 都 有 显著 的 空 阅 。 从 图 中 也 明显 看 出 ， 只 有 当 发 送 和 接收 几乎 同时 发 出 时 ， 阻 塞 式 无 缓冲 
协议 才 适 合 。 然 而 ， 在 异步 环境 中 ， 这 一 点 是 很 难 预测 的 。 空 开销 是 这 种 协议 的 一 个 主要 





缺点 。 
阻塞 式 无 缓冲 操作 中 的 死 锁 下 面 简单 的 消息 交换 可 能 导致 死 锁 : 
] pO Pl 
2 
3 send(&a, 1, 1); send(&a, 1, 0); 
4 receive(&b, 1, 1); receive(&b, 1, 0); 


上 面 的 代码 段 使 进程 PO 和 P1 中 都 有 a 的 值 。 然 而 ， 如 果 发 送 和 接收 操作 用 阻塞 式 无 缓冲 协 
议 实现 ，P0 处 的 发 送 就 会 等 待 Pl 中 相应 的 接收 ， 而 进程 P1 处 的 发 送 也 会 等 待 PO 处 的 相应 接收 ， 
这 样 会 导致 无 限期 的 等 待 。 

由 此 可 以 推断 ， 在 阻塞 式 协议 中 死 锁 是 很 容易 出 现 的 ， 必 须 小 心地 破除 上 述 的 循环 等 待 。 
在 上 面 的 例子 中 ， 可 以 通过 将 某 一 进程 中 的 操作 顺序 更 换 一 下 来 解除 死 锁 ， 也 就 是 将 两 个 进 
程 中 的 发 送 和 接收 顺序 反 过 来 。 但 这 往往 会 使 代码 变 得 更 复杂 ， 且 易 出 现 错误 。 

2. 阻塞 式 有 缓冲 的 发 送 /接收 \ 

可 以 利用 发 送 端 和 接收 端的 缓冲 区 来 解决 上 面 提 到 的 空 闪 和 死 锁 问 题 。 来 看 一 个 简单 的 
例子 ， 发 送 方 有 一 个 预先 分 配 的 缓冲 用 来 进行 消息 通信 。 当 遇 到 发 送 操作 时 ， 发 送 方 只 将 数 
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据 复制 到 指定 的 缓冲 区 ， 并 在 复制 操作 完成 后 返回 。 这 时 ， 发 送 方 进程 就 能 继续 执行 程序 ， 
因为 它 知道 数据 的 任何 变化 都 不 会 影响 程序 的 语义 。 根 据 可 用 硬件 资源 的 不 同 ， 实 际 的 通信 
操作 可 以 用 多 种 方法 完成 。 如 果 硬 件 支持 异步 通信 (与 CPU 独 立 )， 那 么 当 消 息 复制 到 缓冲 区 
后 网 络 传输 就 被 启动 。 要 注意 的 是 ， 在 接收 端 数据 不 能 直接 存储 到 目标 位 置 ， 因 为 这 样 会 破 
环 程序 语义 。 用 相反 的 方法 也 把 数据 复制 到 接收 方 的 缓冲 。 当 接收 进程 遇 到 一 个 接收 操作 ， 
它 会 检查 消息 是 否 在 接收 缓冲 中 。 如 果 在 ， 数 据 就 被 复制 到 目标 位 置 。 这 个 操作 如 图 6-2a 所 
Zo 

企 上 面 说 明 的 协议 中 ， 发 送 方 和 接收 方 都 使 用 缓冲 区 ， 通 信 操 作 由 专用 的 硬件 处 理 。 有 
时 计算 机 中 没有 这 样 的 通信 硬件 。 在 这 种 情况 下 ， 只 在 一 端 缓冲 也 能 减少 开销 。 例 如 ， 遇 到 
发 送 操作 时 ， 发 送 方 中 断 接收 方 ， 两 个 进程 都 参与 到 通信 操作 申 ， 消 息 存储 到 接收 方 端的 组 
冲 区 。 当 接收 方 最 终 遇 到 接收 操作 时 ， 消 息 就 从 缓 促 区 复制 到 目标 位 置 。 这 个 协议 如 图 6-2b 
所 示 。 不 难 设想 出 一 个 协议 ， 只 在 发 送 方 考虑 缓冲 ， 而 接收 方 通过 中 断 发 送 方 来 启动 传输 。 


发 送 进 程 接收 进程 发 送 进程 接收 进程 


Ee 
: A 1 na 


收 方 缓冲 区 
四 
接收 


图 6-2 阻塞 式 缓冲 的 传输 协议 : a) 有 通信 硬件 ， 在 发 送 端 和 接收 端 
都 有 缓冲 区 ; b) 无 通信 硬件 ， 发 送 方 中 断 接收 方 
并 在 接收 方 端的 缓冲 区 存储 数据 


容 昂 看 出 ， 缓 冲 协议 以 增加 缓冲 管理 开销 的 成 本 减少 空闲 开销 。 通 常 ， 如 果 并 行程 序 高 
度 同步 ( 即 发 送 和 接收 几乎 在 同时 发 出 )， 无 缓冲 的 发 送 的 性 能 可 能 比 有 缓冲 的 发 送 好 。 但 是 ， 
在 一 般 的 应 用 程序 中 ， 情 况 并 非 如 此 ， 除 非 缓冲 区 容量 成 为 一 个 大 问题 ， 都 采用 有 缓冲 的 发 


大。 
例 6.1 消息 传递 中 有 限 缓冲 的 影响 
考察 下 面 的 代码 段 : 
] PO P1 
2 
3 for (i = 0; i < 1000; i++) { 0 +) { 
produce data (&a); receive(&a, 1, 0); 
> send(&a, 1, 1); consume data (&a); 
6 


华 这 段 代 码 中 ， 进 程 PO 产生 1000 个 数据 项 并 由 进程 P1 消 费 它们 。 然而， 如 果 进 程 P1 进 入 
循环 的 速度 太 慢 ，P0 可 能 已 经 把 所 有 的 数据 发 送 。 如 果 有 足够 的 缓冲 区 空间 ， 则 两 个 进程 者 
能 继续 ， 然 而 ， 如 果 缓 冲 不 够 ( 即 缓冲 溢出 )， 发 送 方 就 只 能 阻塞 ， 直到 相应 的 接收 操作 发 出 ， 
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这 样 才能 腾空 缓冲 区 空间 。 这 通常 会 导致 不 可 预见 的 开销 以 及 性 能 降低 。 一 般 情 况 下 ， 编 写 
只 有 有 限 缓冲 区 需求 的 程序 是 一 种 好 的 主意 。 i 


有 缓冲 发 送 和 接收 操作 中 的 死 锁 ”虽然 缓冲 减少 死 锁 的 出 现 ， 但 仍 可 能 编写 造成 死 锁 的 代 
码 。 这 是 因为 ， 和 无 缓冲 时 的 情况 一 样 ， 接 收 调用 总 是 阻塞 着 《为 了 保证 代码 语义 上 的 一 致 
性 )。 央 此 ， 如 下 的 简单 代码 段 也 能 造成 死 锁 ， 因 为 两 个 进程 都 等 待 着 接收 数据 ， 但 设 有 进程 
发 出 数据 。 


| PO Pl 


2 
3 receive {&a, 1, 1); receive (&a, 1, 0)，; 
4 gend{&b, 1, 1}; . send (&b, 1, 0);，; 


再 次 看 出 ， 这 样 的 循环 等 待 必须 破除 。 然 而 ， 在 本 例 中 ， 死 锁 仅 由 对 接收 操作 的 等 待 造 
成 。 
6.2.2 无 阻塞 式 消息 传递 操作 


在 阻塞 协议 中 ， 保 证 代码 语义 正确 性 的 开销 以 空闲 〈 无 缓冲 ) 形式 或 缓冲 区 管理 (有 组 
由) 形式 出 现 。 通常， 可 能 要 求生 序 员 保证 语义 的 正确 性 ”并 提供 快 加 的 发 关 / 梳 收 提 作 以 减 
少 开销 。 这 种 类 型 的 无 阻塞 协议 在 语义 上 这 样 做 是 安全 的 以 前 ， 从 发 送 或 接收 操作 返回 。 因 
此 ， 用 户 一 定 要 小 心 ， 不 要 修改 可 能 参与 通信 操作 的 数据 。 无 阻塞 式 操作 通常 伴随 着 一 个 
check-status (状态 检查 ) 操作 ， 它 显示 前 一 个 发 起 的 传输 的 语义 是 否 可 能 受到 损害 。 当 
从 无 阻塞 式 发 送 或 接收 操作 返回 时 ， 进 程 可 以 不 受 约束 地 执行 不 依赖 于 操作 完成 的 任何 计算 。 
如 果 有 必要 的 话 ， 在 程序 的 后 面 可 以 检查 无 阻塞 式 操作 是 否 完成 ， 并 等 待 它 的 完成 。 

如 图 6-3 所 示 ， 无 阻塞 式 操 作 自 身 可 以 是 有 缓冲 的 ， 也 可 以 是 无 缓冲 的 。 在 无 缓冲 情况 下 、 
如 果 一 个 进程 想 要 发 送 数据 到 另 一 个 进程 ， 它 只 需 发 出 待 发 的 消息 ， 并 返回 到 用 户 程序 中 。 
程序 然后 可 以 做 其 他 有 用 的 工作 。 当 后 来 相应 的 接收 发 出 后 ， 通 信 操 作 启 动 。 当 这 个 操作 完 
成 后 ， 状 态 检查 操作 显示 此 时 程序 员 对 这 个 数据 进行 处 理 是 安全 的 。 这 个 传输 如 图 6-4a 所 示 。 

比较 图 6-4a 和 图 6-1a 容 易 发 现 ， 在 阻塞 式 操作 中 ， 进 程 等 待 相应 接收 的 空闲 时 间 可 以 用 于 
计算 ， 只 要 它 不 更 新 正 发 送 的 数据 。 这 样 只 要 对 程序 进行 某 些 绪 构 重组 ， 就 能 减少 与 前 者 相 
关 的 主要 瓶颈 。 如 果 有 专门 的 通信 硬件 ， 则 无 阻塞 式 操作 的 好 处 就 会 更 多 。 这 一 点 在 图 6-4b 
中 说 明 。 此 时 ， 通 信 开 销 几 乎 可 以 完全 被 无 缓冲 操作 屏蔽 。 但 是 ， 在 这 种 情况 下 ， 接 收 操作 
过 程 中 被 接收 的 数据 是 不 安全 的 。 

无 阻塞 式 操作 也 可 以 和 有 缓冲 协议 一 起 使 用 。 在 这 种 情况 下 ， 发 送 方 启动 一 个 DMA 操 作 
并 立即 返回 。DMA 操 作 一 结束 ， 数 据 就 成 为 安全 的 。 在 接收 端 ， 接 收 操作 启动 一 个 从 发 送 方 
的 缓冲 区 到 接收 方 的 目标 位 置 的 传输 。 在 无 阻塞 式 操作 中 使 用 缓冲 区 可 以 减少 数据 不 安全 的 
Ff] 。 

典型 的 消息 传递 库 ， 如 消息 传递 接口 (MPI) 和 并 行 虚拟 机 (PVM )， 既 使 用 阻塞 式 操作 
又 使 用 无 阻塞 式 操 作 。 阻 塞 式 操作 使 编程 更 安全 ， 更 简单 ， 而 无 阻塞 式 操作 可 以 通过 屏蔽 通 
信 开 销 来 进行 性 能 优化 。 但 是 ， 使 用 无 阻塞 协议 时 一 定 要 小 心 ， 因 为 不 安全 地 存 取 处 于 通信 
过 程 中 的 数据 会 引发 错误 。 
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阻塞 式 操作 无 阻塞 式 操作 
发 送 进程 在 数 发 送 进程 在 启动 对 
有 缓冲 的 | ” 据 拷贝 到 通信 缓冲 区 的 DMA 


缓冲 区 后 返回 ”传送 后 返回 









发 送 进程 阻塞 
无 缓冲 的 | ”直到 遇 到 对 应 
的 接收 操作 


发 送 和 接收 的 语义 由 | 程序 员 必 须 通过 轮 询 
对 应 的 操作 保证 检查 操作 完成 ， 以 
明确 保护 语义 


图 6-3 用 于 发 送 和 接收 操作 的 可 能 协议 空间 








发 送 进程 接收 进程 发 送 进程 。 ”接收 进程 
.ll 请 求 发 送 .ll 请 求 发 送 ” 国 
开业 牧人 目 Re d 可 以 发 送 二 接收 
中 的 数据 中 的 数据 jab ns 人 
不 安全 不 安全 读 
世 Be | a 
| : 安全 


a) 无 通信 硬件 支持 b) 有 通信 硬件 支持 
图 6-4 无 阻塞 式 无 缓冲 的 发 送 与 接收 操作 


6.3 MPI: 消息 传递 接口 


许多 早期 的 商用 并 行 计算 机 是 基于 消息 传递 体系 结构 的 ， 因 为 相对 于 共享 地 址 空间 体系 
结构 ， 它 的 成 本 更 低 。 对 这 些 计 算 机 而 言 ， 消 息 传递 是 自然 的 编程 模式 ， 这 样 就 产生 了 许多 
不 同 的 消息 传递 程序 库 。 事 实 上 ， 消 息 传递 演变 成 现代 形式 的 汇编 语言 ， 每 个 硬件 制 千 商 都 
提供 他 上 自己 的 程序 库 ， 这 些 库 在 它们 上 自己 的 硬件 上 工作 得 很 好 ,但 是 与 其 他 制造 商 提 供 的 并 
行 计算 机 不 兼容 。 由 不 同 制造 商 提供 的 特定 的 消息 传递 库 之 间 的 许多 差别 其 实 只 是 句法 上 
的 ; 但 是 ， 将 消息 传递 程序 从 一 个 库 移 植 到 另 一 个 库 中 时 ， 对 一 些 重大 的 语义 差别 需要 作 很 
大 修改 。 

消息 传递 接口 (通称 为 MPI) 就 是 用 来 解决 这 个 问题 。MPI 定 义 消息 传递 的 标准 库 ， 这 些 
库 可 以 使 用 C 或 Fortran 来 开发 可 移植 的 消息 传递 程序 。MPI 标 准 定义 一 组 核心 的 库 例 行程 序 的 
语法 及 语义 ， 它 们 对 编写 消息 传递 程序 非常 有 用 。MPI 由 许多 来 自学 术 机 构 和 企业 的 研究 人 





员 开 发 ， 并 得 到 几乎 所 有 的 硬件 制造 商 的 支持 。 在 几乎 所 有 的 商用 并 行 计算 机 上 都 有 MPI 的 
硬件 实现 。 
MPI 库 中 包含 超过 125 个 例 行 程序 ， 但 关键 的 例 行 程序 要 少 得 多 。 事 实 上 ， 只 需要 使 用 表 
6-1 中 列 出 的 6 个 例 行 程序 ， 就 能 写 出 全 功能 的 消息 传递 程序 。 这 些 例 行 程序 分 别 用 来 初始 化 
及 终止 MPI 库 ， 从 并 行 计 算 环境 中 获取 信息 ， 以 及 发 送 和 接收 消息 。 


表 6-1 MPI 例 行程 序 的 最 小 集 


MPI Init 初始 化 MPI 

MPI Finalize 终止 MPI 

MPI Comm size 确定 进程 的 数目 

MPI Comm rank 确定 调用 的 进程 的 标号 
MPI_Send 发 送 一 条 消息 

MPI Recv 接收 一 条 消息 





本 节 将 讲述 这 些 例 行 程序 ， 以 及 用 MPI 编 号 正确 和 有 效 的 消息 传递 程序 的 某 些 重要 的 基本 
概念 。 / / 


6.3.1 启动 和 图 止 MPI 库 


对 MPI_Init 的 调用 要 优先 于 对 其 他 MPI 例 行程 序 的 调用 。 它 的 作用 是 初始 化 MPI 环 境 。 
在 程序 的 执行 过 程 中 对 MPI_Init 调 用 超过 一 次 就 会 出 错 。 计 算 结束 时 调用 MPI_Finalize， 
蕊 将 执行 多 个 收尾 任务 以 终止 MPI 环 境 。 在 调用 MPI_Finalize 后 ， 不 能 再 有 其 他 的 MPI 调 
用 ， 甚 至 包括 MPI_Init。MPI_Init 和 NMPI_Finalize 必 须 被 所 有 的 进程 调用 ， 否 则 MBI 
的 状态 会 成 为 不 确定 的 。 在 C 语 言 中 ， 对 这 两 个 例 行 程序 的 正确 调用 序列 如 下 : 


int MPI Init(int *argc, char ***argv) 
int MPI Finalize() 


MPI_Init 中 的 参数 argc 和 argv 是 C 程 序 中 的 命令 行 参数 。MPI 的 实现 在 返回 到 程序 前 ， 
将 从 argv 数 组 中 移 走 应 在 实现 中 处 理 的 所 有 命令 行 参 数 ， 并 相应 地 减 小 argc。 因 此 ， 对 命 
令 行 的 处 理 只 有 在 调用 MPI_Init 后 才能 进行 。 在 MPI_Init 和 MPI Finalize 成 功 执行 后 
返回 MPI_SUCCESS; 否则 返回 一 个 由 实现 定义 的 错误 代码 。 

对 这 两 个 函数 的 绑 定 和 调用 顺序 表明 MPI 遵 循 通 常 的 命名 规则 和 参数 约定 。 所 有 的 MPI 例 
行程 序 、 数 据 类 型 以 及 常量 都 加 一 个 前 缀 “MPI_”。 如 果 调 用 成 功 ， 则 返回 码 是 
MPI_SUCCESS ， 在 C 语 言 中 它 和 其 他 的 MPI 常 量 以 及 数据 结构 定义 在 “mpi .h” 文 件 中 。 每 
个 MPI 程 序 必 需 包 含 这 个 头 文件 。 


6.3.2 通信 器 


通信 域 【communication domainy 是 一 个 贯穿 于 MPI 的 关键 概念 。 一 个 通信 域 是 可 以 相互 
通信 的 一 组 进程 的 集合 。 有 关 通 信 域 的 信息 存储 在 类 型 为 MPI_Ccomm 的 变量 中 ， 这 些 变量 称 
为 通信 器 (communicator)。 这 些 通 信 器 作为 参数 用 于 所 有 的 消息 传送 MPI 例 和 行程 序 中 ， 并 唯 
一 标识 参与 消息 传送 操作 的 进程 。 注 意 ， 每 一 个 进程 都 可 以 属于 许多 不 同 的 (可 能 重 人 的 ) 
通信 域 。 

通信 器 用 来 定义 能 够 相互 通信 的 进程 集合 。 这 个 进程 集合 构成 一 个 通信 域 。 通常 ， 所 有 
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的 进程 都 需要 相互 通信 。 因 此 ，MPI 定 义 一 个 默认 的 通信 器 MPI_COMM_WORLD， 它 包含 所 有 
参与 并 行 执行 的 进程 。 然 而 ， 很 多 时 候 人 们 只 想 在 几 组 (可 能 重合 的 ) 进程 间 通 信 。 通 过 对 
每 组 进程 使 用 不 同 的 通信 器 ， 就 能 杜绝 发 送 到 某 一 组 的 消息 干扰 发 送 到 其 他 组 的 消息 。 在 本 
章 的 后 面 ， 将 讨论 如 何 创建 并 使 用 这 样 的 通信 器 。 下 面 先 来 讲述 把 MPI_COMM_WORLD 作 为 通 
信和 器 参数 用 在 所 有 需要 通信 器 的 所 有 MPI 浮 数 中 。 


6.3.3 获取 信息 


MPI_Comm_size 和 MPI_Comm_rank 图 数 分 别 用 来 确定 进程 的 数目 以 及 调用 进程 的 标 
写 。 这 两 个 例 行 程序 的 调用 序列 如 下 : 

int MPI_ Comm size (MPI Comm comm, int *size) 

int MPI Comm rank (MPI Comm comm, int *rank) z 

的 数 MPI_Comm_size 在 变量 size 中 返回 属于 通信 器 comm 的 进程 数目 。 因 此 ， 如 果 每 个 
处 理 器 有 一 个 进程 ， 调 用 MPI_Comm_size (MPI_COMM_NWORLD，&size) 就 会 在 size 中 返 
回程 序 用 到 的 处 理 器 的 数目 。 属 于 通信 器 的 每 个 进程 都 由 它 的 等 级 (rank) 唯一 确定 。 进 程 的 
等 级 是 一 个 整数 ， 其 值 从 0 到 通信 器 的 规模 减 1。 进 程 可 以 用 MPI_Comm_rank 函 数 确定 其 在 通 
信和 器 中 的 等 级 ， 该 函数 有 两 个 参数 ， 即 通信 器 和 一 个 整 型 变量 rank。 返 回 时 ， 变 量 rank 存 储 
进程 的 等 级 。 注 意 调用 这 两 个 函数 的 每 个 进程 都 必须 属于 所 提供 的 通信 器 ， 否 则 将 会 出 错 。 
例 6.2 Hello World 


下 面 我 们 可 以 用 上 面 讲 到 的 4 个 MPI 函 数 来 编写 一 个 程序 ， 从 每 一 个 处 理 器 输出 “Hello 
World” 信 息 。 


#include <mpi.h> 


main(int argc, char *argv|)) 


MPI Init (&argc，&argv) :; 
MPI Comm size (MPI COMM WORLD，&npes) ; 
9 MPI_Comm rank (MPI_ COMM WORLD, &myrank); 
10 printf ("From process $d out of %d, Heillo World!\n", 
11 myrank, npes); 
12 MPI1 Finalize{); 


l 
2 
3 
4 
5 int npes, myrank; 
6 
7 
8 


6.3.4 发 送 和 接收 消息 


在 MPI 中 ， 发 送 和 接收 消息 的 基本 函数 分 别 是 MPI_Send 和 MPI_Recv。 这 两 个 例 行 程序 
的 调用 序列 如 下 : | 
int MPI Send (void *buf, int count, MPI Datatype datatype, 
int dest, int tag, MPI Comm comm) 


int MPI_Recv (void *buf, int count, MPI Datatype datatype, 
int source, int tag, MPI Comm comm, MPI Status *status) 


MPI_Send 发 送 存储 在 由 buf 指 向 的 缓冲 区 中 的 数据 ， 缓 冲 区 中 包含 由 参数 datatype 指 
定 类 型 的 连续 项 目 。 缓 冲 区 中 项 目的 个 数 由 参数 count 给 出 。 表 6-2 中 列 出 MPI 数 据 类 型 与 C 
语言 中 给 出 的 数据 类 型 之 间 的 对 应 。 注 意 对 于 C 语 言 中 所 有 的 数据 类 型 ， 都 有 -一 个 等 价 的 MEI 
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数据 类 型 。 但 是 ，MPI 中 有 两 个 C 语 言 中 没有 的 数据 类 型 ， 它 们 是 MPI_BYTE 和 
MPI PACKED., 

MPI_BYTE 对 应 于 一 个 字 节 (8 位 )， 而 MPI_PACKED 与 一 个 数据 项 集合 对 应 ， 这 些 数据 
项 由 不 相 邻 的 数据 打包 构成 。 注 意 MPI_Send 以 及 其 他 MPI 例 行程 序 中 的 消息 的 长 度 不 用 字 节 
数 而 是 以 待 发 送 的 数据 项 的 数目 给 出 。 以 数据 项 的 数目 来 指定 长 度 可 以 使 MPI 代 码 具 有 可 移 
植 性 ， 因 为 在 不 同 的 体系 结构 中 ， 用 来 存储 不 同 的 数据 类 型 的 字 节 数 也 可 能 不 同 。 

由 MPI_Send 发 出 的 消息 的 目的 地 由 dest 和 comm 两 个 参数 指定 。dest 参 数 是 由 通信 器 
comm 指 定 的 通信 域 中 的 目标 进程 的 等 级 。 每 一 条 消息 都 有 一 个 整数 值 的 tag 与 之 关联 ， 它 用 
来 区 分 不 同类 型 的 消息 。 消 上 息 - tag 的 取 值 多 围 从 0 到 MPI 定 义 的 常量 MPI_ TAG_UB。 虽 然 
MPI_TAG_UB 的 值 是 在 实现 时 指定 ， 但 最 小 为 32 767。 


表 6-2 MPI 和 C 诸 言 中 的 数据 类 型 间 的 对 应 


MPI 数 据 类 型 C 数据 类 型 
MPI CHAR signed char 
MPI_SHORT signed short int 
MPI_INT signed int 
MPI_LONG signed jong int 
MPI_UNSIGNED_CHAR unsigned char 
MPI_UNSIGNED_SHORT unsigned short int 
MPI_UNSIGNED unsigned int 
MPI_UNSIGNED_LONG unsigned long int 
MPI_FLOAT float 
MPI_DOUBLE doubie 
MPL LONG_DOUBLE long double 
MPI_BYTE 


MPI_PACKED 


MPI_Recv 接 收 到 由 一 个 进程 发 来 的 消息 ， 该 进程 的 等 级 由 comm 参 数 指 定 的 通信 域 中 的 
source 给 出 。 已 发 送 消 息 的 标志 必需 由 tag 参 数 指 定 。 如 果 来 自 同 一 进程 的 许多 消息 的 标志 
相同 ， 那 么 这 些 消 息 中 的 任意 一 个 被 接收 。MPI 人 允许 对 source 和 tag 使 用 通配符 。 如 果 
source 被 设置 为 MPI_ANY_SOURCE， 那 么 通信 域 中 的 任意 进程 都 能 成 为 消息 源 。 同 样 ， 如 
果 tag 被 设置 为 MPI_ANY_TAG， 那 么 具有 任意 标志 的 消息 都 被 接收 。 接 收 到 的 消息 存储 在 由 
buf 指 向 的 缓冲 区 中 的 连续 单元 。MPI_Recv 中 的 count 和 datatype 参 数 用 来 指定 提供 的 组 
冲 区 的 长 度 。 收 到 的 消息 应 该 等 于 或 者 小 于 此 长 度 。 这 样 就 允许 接收 进程 无 需 知 道 要 发 送 的 
消息 的 确切 大 小 。 如 果 接 收 到 的 消息 的 长 度 大 于 提供 的 缓冲 的 长 度 ， 就 会 出 现 溢出 错误 ， 例 
行程 序 将 返回 一 个 MPI_BERR_TRUNCRATE 错 误 。 

接收 消息 后 ， 可 以 用 status 变 量 获取 有 关 MPI _Recv 操 作 的 信息 。 在 C 语 言 中 ， 
status 以 MPI_Status 数 据 结 构 存 储 。 这 个 数据 结构 用 含 3 个 字段 的 结构 实现 如 下 : 


typedef struct MPI_Status { 
int MPI_SOURCE ; 
int MPI TAG; 
int MPI ERROR; 





MPI_SOURCE 和 MPI_TAG 保 存 接收 的 消息 源 和 标志 。 它 们 在 source 和 tag 参 数 设置 为 
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MPI ANY SOURCE 及 MPI ANY TAG 时 尤其 有 用 。MPI ERROR 保 存 接收 的 消息 的 出 错 码 。 
状态 参数 也 能 返回 有 关 接 收 的 消息 的 长 度 信息 。 此 信息 不 能 直接 用 status 变 量 获得 ， 但 
可 以 通过 调用 MPI_GET_Count 国 数 获得 。 此 国 数 的 调用 序列 如 下 : 


int MPI Get count (MPI Status *status, MPI Datatype datatype, 
int *count) 


MPI_Get _count 中 有 3 个 参数 ,分 别 是 由 MPI Recv 返 回 的 status、datatype 中 接 
收 到 的 消息 的 类 型 ， 以 及 count 变 量 中 实际 接收 到 的 数据 项 的 数目 。 

只 有 在 请 求 的 消息 已 收 到 并 复制 到 缓冲 区 后 ，MPI_Recv 才 返回 。 也 就 是 说 ，MPI_Recv 
是 一 个 阻塞 式 接收 操作 。 然 而 ，MPI 允 许 两 种 不 同 的 MPI_Send 实 现 。 在 第 一 种 实现 中 ， 
MPI_Send 只 有 当 相应 的 MPI_Recv 已 发 出 并 且 消 息 已 发 送 到 接收 方 时 才 返 回 。 在 第 二 种 实 
现 中 ，MPI_Send 首 先 将 消息 复制 到 缓冲 区 中 ， 然 后 就 返回 ， 无 需 等 待 相应 的 MPI_Recv 执 
行 。 在 这 两 种 实现 中 ， 由 MPI_Send 中 的 buf 参 数 指向 的 缓冲 可 以 安全 地 重用 和 覆盖 。 无 论 
采用 哪 一 种 MPI_Send 实 现 ，MPI 程 序 都 必须 能 正确 运行 。 这 样 的 程序 称 为 安全 (safe) 程序 。 
在 编写 安全 的 MPI 程 序 时 ， 忘 掉 这 两 种 MPI_Send 实 现 ， 只 把 它 看 作 是 有 阻塞 的 发 送 操作 ， 有 
时 会 对 编程 有 帮助 。 

避免 死 锁 MPI_Send 和 MPI_Recv 的 语义 对 我 们 如 何 对 发 送 和 接收 操作 进行 混合 和 搭配 
提出 某 些 限制 。 例 如 ， 在 下 面 的 代码 段 中 ， 进 程 0 发 送 两 条 带 有 不 同 标志 的 消息 到 进程 1， 进 
程 1 以 相反 的 顺序 接收 这 两 条 消息 。 


] int afl10]，b[f10] ，myrank :| 
MPI Status status; 


2 

3  ... 

4 MPI_Comm_rank (MPI COMM WORLD, &myrank).; 

5 if (myrank == 0) { 

6 MPI_Send(a, 10, MPI_INT, 1, 1, MPI COMM WORLD); 
7 MPI_Send(b, 10, MPI_INT, 1, 2, MPI COMM WORLD) ; 
8 


9 else if {myrank == 1) f 

10 MPI_Recvl(b, 10, MPI_INT, 0, 2, MPI COMM WORLD) ; 
1] MPI Recv{la, 10, MPI_INT, 0, 1, MPI COMM WORLD) ; 
12 ) 


如 果 MPI_Send 用 缓冲 区 方式 实现 ， 那 么 在 有 足够 的 缓冲 区 空间 时 ， 代 码 就 能 正确 地 运 


” 行 。 然 而， 如 果 MPI_Send 在 相应 的 接收 发 出 前 一 直 阻 塞 ， 那 么 发 送 和 接收 的 两 个 进程 都 不 


能 进行 。 这 是 因为 进程 0 ( 即 myrank= =0) 要 一 直 等 到 进程 1 发 出 相应 的 MPI_Recv ( 即 标志 
为 1 的 进程 ) ; 同时 ， 进程 1 要 一 直 等 到 进程 0 执行 相应 的 MPI_Sena ( 即 标志 为 2 的 进程 ) 。 这 
段 代码 是 不 安全 的 ， 因 为 它 的 状态 与 实现 有 关 。 在 任何 MPI 实 现 中 ， 只 有 靠 程序 员 来 保证 程 
序 的 正确 性 。 此 程序 中 的 问题 可 以 通过 匹配 发 送 和 接收 操作 发 出 的 顺序 来 修正 。 当 进程 发 送 
消息 给 自己 时 ， 也 会 出 现 同样 类 型 的 死 锁 。 虽 然 发 送 消息 给 自己 是 合法 的 ， 但 它 的 状态 与 实 
现 有 关 ， 因 而 必须 避免 。 


会 造成 死 锁 。 考 虑 下 面 的 代码 段 ， 其 中 进程 ;发 送 一 条 消息 给 进程 ; +1 (进程 数目 的 模 )， 并 从 
进程 一 1 (进程 数目 的 模 ) 接收 一 条 消息 。 


! int a[10]，b[10] npes, myrank; 
2 MPI Status status; 
3 ... 
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MPI Comm size {MPI COMM WORLD, &npes),; 
MPI_Comm rank (MPI _ COMM WORLD, g&myrank),; . 

MPI_Send{a, 10, MPI_INT, (myrank+1)%npes, 1, MPI COMM NORLD) :; 

MPI Recv{b, 10, MPI INT, (myrank-l+npes) $npes, 1, MPI COMM WORLD) ; 


oo ~] 人 (Cn 省 


当 MPI_Send 用 缓冲 区 方式 实现 时 ， 上 面 的 程序 能 正确 运行 ， 因 为 每 次 调用 MPI_Send 

上 时， 数据 都 会 存 人 缓冲 区 ， 这 样 对 MPI _Recv 的 调用 就 能 被 执行 ， 由 调用 传送 所 需要 的 数据 。 

然而 如 果 MPI_send 在 相应 的 接收 发 出 前 一 直 阻 塞 ， 所 有 的 进程 都 将 进入 一 种 无 限 的 等 待 

状态 ， 等 待 邻 近 的 进程 发 出 4PI_Recv 操 作 。 注 意 即 使 只 有 两 个 进程 时 ， 死 锁 也 会 出 现 。 因 

此 ， 当 成 对 的 进程 需要 交换 数据 时 ， 上 面 的 方法 将 会 导致 不 安全 的 程序 。 按 下 面 的 方式 改写 
代码 就 能 使 上 面 的 例子 成 为 安全 的 : 


int ar[10j，bftl0] ， npee， myYanKk ; 


l 

2 MPI Status status; 

3 ... 

4 MPI Comm size (MPI COMM WORLD, gnpes)},; 

5 MPI_ Comm rank (MPI COMM WORLD，&myzrank) ; 

6 if (myrank%2 == 1) { 

7 MPI_Send{la, 10, MPI_ INT, (myrank+l)%npes, 1, MPI COMM WORLD) ; 

8 MPI Recv(b, 10, MPI_INT, (myrank-1l+npes) Ynpes, 1, MPI_COMM WORLD); 
9 】 

10 else { 


11 MPI_ Recv(b, 10, MPI_INT, (myrank-l+npes)%npes, 1, MPI_COMM WORLD) :; 
12 MPI_Sendla, 10, MPI_INT, (myrank+1)%npes, 1, MPI COMM WORLD); 


新 的 方法 将 进程 分 成 两 组 。 一 组 中 是 奇数 编号 的 进程 ， 另 一 组 中 是 偶数 编号 的 进程 。 奇 
数 编 志 的 进程 在 执行 发 送 操作 后 执行 接收 操作 ， 而 偶数 编号 的 进程 在 执行 接收 操作 后 执行 发 
送 操作 。 因 此 ， 当 奇数 编号 进程 调用 MPI_Send 时 ， 目标 进程 《具有 偶数 编号 ) 在 试图 发 送 
自己 的 消息 前 将 调用 MPI_Recv 来 接收 发 送 来 的 消息 。 

同时 发 送 和 接收 消息 ”在 许多 消息 传递 程序 中 ， 经 常 能 看 到 以 上 的 通信 模式 ， 因此 ，MPI 
提供 MPI_Senqrecv 国 数 ， 它 既 发 送 又 接收 消息 ， 

在 MPI_Send 和 MPI Recv 中 出 现 的 循环 死 锁 不 会 在 MPI_Sendrecv 中 发 生 。 你 可 以 把 
MPI_Sendrecv 想 家 成 允许 同时 为 发 送 和 接收 传送 数据 。MPI_Sendrecv 的 调用 序列 如 下 : 


int MPI_ Sendrecv (void *sendbuf, int sendcount, 
MPI_Datatype senddatatype, int dest, int séendtag, 
void *recvbhuf, int recvcount, MPI_ Datatype' recvdatatype, 
int source, int recvtag, MPI Comm comm, 
MPI_ Status *status) 


MPI_Sendrecv 中 的 参数 实际 上 是 MPI _Send 和 MPI Reev 中 参数 的 结合 。 发 送 和 接收 
缓冲 区 必需 分 开 ， 消 息 源 和 目标 可 以 相同 ， 也 可 以 不 同 。 上 面 提 到 的 使 用 MEI _Sendrecv 的 
例子 的 安全 版 本 如 下 : 


Int al[li0], b[1i0}, npes, myrank; 
MPI Status status,; 


MPI_ Comm size (MPI COMM WORLD, &npes): 
MPI_Comm rank (MPI_COMM WORLD, &myrank),; 
MPI SendRecv la, 10, MPI _INT, (myrank+1)%npes, 1, 
b, 10, MPI INT, (myrank-1l+npes)} snpes, 1, 
MPI_COMM WORLD, &status); 


No 
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在 许多 程序 中 ， 因 为 MPI_Sendrecv 要 求 发 送 和 接收 缓冲 区 分 离 ， 这 可 能 使 我 们 不 得 不 
用 临时 缓冲 区 。 这 样 就 使 程序 的 内 存 需求 量 增加 ， 并 且 总 体 运行 时 间 也 因 额 外 的 复制 而 增加 。 
可 以 用 MPI_Sendrecv_replLace 国 数 来 解决 此 问题 。 此 国 数 执行 阻塞 式 发 送 和 接收 操作 ， 
但 对 发 送 和 接收 操作 只 使 用 单一 的 缓冲 区 。 也 就 是 说 ， 接 收 到 的 数据 替换 发 送出 缓冲 的 数据 。 
这 个 图 数 的 调用 序列 如 下 : 


int MPI Sendrecv _ replace (void *buf, int count, 
MPI_ Datatype datatype, int dest, int sendtag, 
int source, int recvtag, MPI Comm comm, 
MPI Status *status) 


注意 ， 发 送 和 接收 操作 必须 传送 同一 种 数据 类 型 的 数据 。 
6.3.5 实例 : 奇偶 排序 


我 们 将 用 前 面 几 小 节 讲 到 的 MPI 函 数 来 写 一 个 完整 的 消息 传递 程序 ， 该 程序 用 奇偶 排序 算 
法 对 一 个 数字 列表 排序 。 参 考 9.3.1 节 可 知 ， 奇 偶 排序 算法 在 总 共 p 个 阶段 中 对 n 个 元 素 用 p 个 进 
程 排序 。 在 每 个 阶段 中 ， 奇 数 或 偶数 的 进程 都 要 和 它们 的 右边 邻居 进行 一 次 比较 -分 裂 操 作 。 
程序 6-1 列 出 进行 并 行 奇偶 排序 的 MPI 程 序 。 为 了 简化 程序 的 表示 ， 这 个 程序 假设 n 能 被 p 整 除 。 


程序 6-1 奇偶 排序 
一 一 一 一 一 一 一 


1 #inciude <stdlib.h> 

2 #include <mpi.h> /* Include MP1s header file */ 
3 

4 mainl(int argc, char *argv[] ) 


int n; [The total number of elements to be sorted */ 

int npes; /™ The total number of processes */ 

int myrank; /* The rank of the calling process */ | 

int nlocal; /* The local number of elements, and the array that stores them */ 
int *elmntse; /*The array that stores the local elements */ 

11 int x*relmnts; /*The array that stores the received elements */ 

12 int oddrank; /*Therank of the process during odd-phase communication */ 

13 int evenrank; /* The rank-of the process during even-phase communication */ 
14 int *wepace; /Working space during the compare-split operation */ 


aa 
忆 由 名 ~] 人 衣 


15 int i; 
16 MPI Status status,; 
17 


18 /* Initialise MPI and get system information */ 

19 MPI_Init (gargc, &argv); 

20 MPI_Comm size (MPI COMM WORLD, &npes); 
21 MPI_Comm rank (MPI_ COMM WORLD, &myrank); 


23 n = atoil(argv[1i)); 
24 nlocal » n/npes; /* Compute the number of elements to be stored locally. */ 


25 

26 /*Allocate memory for the various arrays */ 

27 elmmte = (int *}malloc (nlocal*sizeof (int)) ， 
28 relmnts = (int *)malloc (nlocal*sizeof (int))，; 
29 wspace = (int *)malloc (nlocal*sizeof (int)); 
30 

31 /* Fill-in the elmnts array with random elements */ 

32 srandom (myrank) ; 

33 for (i=0; i<nlocal; i++) 

34 elmnts[i] = random(); 

35 


36 /* Sort the local elements using the built-in quicksort routine */ 
37 qsort (elmnts, nlocal, sizeof (int) : IncOrder)., 
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38 
39 /* Determine the rank of the processors that myrank needs to communicate during the */ 
40 /* odd and even phases of the algorithm */ 
41 if (myrank®%2 == 0) { 
42 oddrank = myrank-1; 
43 evenrank = myrank+l; 
44 
45 else { 
46 oddrank = myrank+l1; 
去 7 evenrank = myrank-1; 
48 
49 
50 /* Set the ranks of the processors at the end of the Linear */ 
51 if (oddrank == -1 || oddrank == npes) 
52 oddrank = MPI PROC NULL; 
53 if (evenrank == -1 || evenrank == npes) 
54 evenrank = MPI PROC NULL; 
55 
56 [Get into the main loop of the odd-even sorting algorithm */ 
57 for (i=s0; i<npes-l1; i++) 
58 if (i%2 == 1) /* Odd phase */ 
59 MPI_Sendrecv lelmnts, nliocal, MPI INT, oddrank, 1, relmnte, 
60 nlocal, MPI_INT, oddrank, 1, MPI COMM . WORLD, &atatus); 
61 else /* Even phase #4/ 
62 MPI_Senarecv (elmnts, nlocal, MPI INT, evenranyk, 1, relmnts, 
63 nlocal, MPI_INT, evenrank, 1, MPI COMM WORLD, &status); 
64 
65 CompareSplit (nlocal, elmnts, relmnts, wspace, 
66 myrank < status.MPI SOURCE)., 
67 } 
68 
69 free (elmts); freel(relmnts); free (wspace),; 
70 MPI Finalize(); 
71 )} 
72 
73 /* Thisis the CompareSplit function */ 
74 CompareSplit (int nlocal, int *elmnts, int *relmnts, int *wspace, 
75 int keepemall) 
76 { 
77 int i, 3, k; 
78 
79 for (i»0; icnlocal,; i++) 
80 wapace [i] = elmnts [il /* Copy the elmnts array into the wspace array */ 
81 
82 if (keepsmall)} { /* Keep the nlocal smaller elements */ 
83 for (ixjuk=0; k<cnlocal; k++) 
84 it (j =« nlocal || (i < nlocal && wspace[i] < zelmnts[jj )) 
85 elmmts[k] = wepace [i++]; 
86 elee 
87 elmnts [kj = relmnts[j++]; 
88 
89 } 
90 else { /* Keep the nlocal larger elements */ 
91 for (i=k=nlocal-1, j=nlocal-ls Kk>=0; Kk--) 
92 if (] = 0 || (i >= 0 && wepace [i] >= relmntes[jl)) 
93 elmnts[k)] = wepace [i--]:; 
94 else 
95 elmntgs[k] = relmnts{j--]; ~ 
96 | 
97 } 
98 } 
939 

100 /* The IncOrder function that is called by qsort is defined as follows */ 

101 int IncoOrder (const void x*el, const void *e2) 

102 

103 return {(*((int *)el) - *({(int *)e2))， 

104 } 
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6.4 拓扑 结构 与 嵌入 


MPI 将 进程 看 成 按 一 维 拓扑 结构 组 织 并 用 线性 顺序 对 进程 编号 。 然 而 , 在 许多 并 行程 序 中 ， 
进程 实际 上 是 按 高 维 (如 二 维 或 三 维 ) 拓扑 结构 组 织 的 。 在 这 样 的 程序 中 ， 交 互 进 程 的 计算 
和 设置 都 自然 地 依据 它们 在 这 种 拓扑 结构 中 的 坐标 来 标识 。 例 如 ， 在 进程 按 二 维 拓 扑 结构 组 
织 的 并 行程 序 中 ， 进 程 (i,)) 可 能 需要 发 送 消 息 到 进程 (k, 10) 或 从 (K, 站 接收 请 息 。 为 了 用 MPI 实 现 
这 些 程 序 ， 就 有 必要 将 每 个 MPI 进 程 映 射 到 高 维 拓扑 结构 中 的 一 个 进程 。 

许多 这 样 的 映射 是 可 能 的 ， 图 6-5 展 示 从 8 个 MPI 进 程 到 4 x 4 二 维 结构 的 一 些 可 能 的 映射 。 
例如 ， 对 于 图 6-5a 所 示 的 映射， 等 级 为 rank 的 MPI 进 程 与 网 格 中 的 进程 (row, coD) 相 对 应 ， 使 得 
row = rank/4，col = rank%4 (其 中 “%” 是 C 语 言 中 的 模 操作 符 )。 作 为 例子 ， 等 级 为 7 的 进程 
会 映射 到 网 格 中 的 进程 (1, 3)。 





a) 以 行为 主 的 映射 b) 以 列 为 主 的 映射 c) 空间 填充 曲线 映射 ”d) 超 立 方 体 映射 


图 6-5 将 多 个 进程 映射 到 二 维 网 格 中 的 不 同方 法 。 a) 和 b) 显示 按 行 和 列 的 
进程 映射 ，c) 显示 按 空间 填充 的 曲线 (虚线 ) 的 映射 ， 
d) 显示 邻接 的 进程 在 超 立 方 体 中 直接 连接 的 映射 


通常 ， 映 射 的 优良 性 由 更 高 维 结构 中 进程 间 的 交互 模式 、 物 理 处 理 器 间 的 连通 性 以 及 从 
MPI 进 程 到 物理 处 理 器 间 的 映射 决定 。 例 如 ， 考 虑 某 一 程序 使 用 二 维 拓扑 结构 ， 每 个 进程 需 
要 沿 着 拓扑 结构 的 x 和 y 方 向 与 邻近 的 进程 通信 。 如 果 当 前 并 行 系统 的 处 理 器 通过 超 立方 体 互 
连 网 络 连接 ， 那 么 按 6-5d 所 示 进 行 映射 更 好 ， 因 为 网 格 中 邻近 的 进程 也 是 超 立 方 体 拓扑 结构 
中 邻近 的 处 理 器 。 

然而 ， 这 种 由 MPI 用 来 对 通信 域 中 的 进程 分 配 等 级 的 机 制 没有 利用 任何 互连网 络 的 信息 ， 
使 得 它 不 可 能 以 智能 的 方式 进行 拓扑 结构 嵌入 。 而 且 ， 即 使 有 了 互连网 络 的 信息 ， 对 于 不 同 
的 互连网 络 ， 也 需要 指定 不 同 的 映射 ， 这 样 就 减弱 了 MPI 与 体系 结构 无 关 的 优点 。 更 好 的 解 
决 方法 是 ， 让 程序 库 自身 计算 最 适合 的 从 给 定 的 拓扑 结构 到 并 行 计算 机 的 处 理 器 的 嵌入 。 这 
正好 是 MPI 使 之 容易 实现 的 方法 。MPI 中 提供 一 组 例 行 程序 ， 它 们 能 让 程序 员 在 不 同 的 拓扑 结 
构 中 安排 进程 ， 无 需 显 式 指 定 进程 如 何 上 映射 到 处 理 器 上 。 直 接 用 MPI 库 找 出 最 适合 的 映射 可 
以 减少 发 送 和 接收 消息 的 成 本 ，。 


6.4.1 创建 和 使 用 笛 卡 儿 拓扑 结构 


佳 MPI 例 行程 序 中 ， 人 允许 按 图 的 方式 指定 任意 连通 的 虚拟 进程 拓扑 结构 。 图 中 的 每 个 节点 
都 与 一 个 进程 对 应 ， 如 果 两 个 节点 相互 通信 ， 则 它们 就 是 相连 的 。 进 程 图 可 以 用 来 指定 任意 
需要 的 拓扑 结构 。 但 是 ， 在 消息 传递 程序 中 最 常用 的 结构 是 一 维 、 二 维 或 更 高 维 的 网 格 ， 它 
们 也 称 为 笠 卡 儿 拓 扑 结构 (Cartesian topology)。 因 此 ，MPI 提 供 一 组 特别 的 例 行 程序 用 来 指 
定 和 处 理 这 种 类 型 的 多 维 网 格 拓扑 结构 。 
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用 于 描述 笛 卡 儿 结 构 的 MPI 国 数 是 MPI_Cazrt_create， 它 的 调用 序列 如 下 : 


int MPI_Cart_create (MPI_Comm comm old, int ndims, int *dims, 
int *periods, int reorder, MPI Comm *comm cart) 


这 个 明 数 获取 属于 通信 器 comm_o1ld 的 一 组 进程 ， 并 创建 一 个 虚拟 进程 结构 。 结 构 信息 
附属 在 由 MPI_Cart_create 创 建 的 新 通信 器 comm_cart 上 。 任 何 后 面 的 MPI 例 行程 序 ， 如 
果 相 利用 这 种 新 的 第 卡 儿 结 构 ， 就 必须 使 用 comm cart 作 为 通信 器 参数 。 注 意 所 有 属于 通信 
颖 Comm_o1ld 的 进程 都 必须 调用 这 个 洋 数 。 拓 扑 结 构 的 形状 与 属性 由 参数 ndims 、dims 以 及 
periods 指 定 。 参 数 ndims 指 定 拓扑 结构 的 维 数 。 数 组 dims 指 定 拓扑 结构 中 每 一 维 的 大 小 。 
这 个 数组 中 的 第 ;个 元 素 存 储 拓扑 结构 中 第 i 维 的 大 小 。 数 组 Periods 用 于 指定 拓扑 结构 中 是 
全 有 坏 绕 连 接 。 特 别 ， 如 果 periods[i] 为 真 ( 在 C 语 言 中 为 非 0)， 那 么 拓扑 结 构 沿 i 维 有 环 
绕 连接 ， 否 则 没有 。 最 后 ， 参 数 reorder 用 于 确定 新 组 ( 即 通 信 器 ) 中 的 进程 是 否 需 要 进行 
重新 排序 。 如 果 reorder 为 假 ， 那 么 新 组 中 每 个 进程 的 等 级 与 旧 组 中 的 等 级 相同 ; 如 果 
reorder 为 真 ， 且 由 此 导致 更 好 地 将 虚拟 拓扑 结构 修 入 到 并 行 计算 机 中 ， 那 么 
MPI_Cart_create 可 以 对 进程 重新 排序 。 如 果 由 dims 数 组 指定 的 进程 的 总 数 小 于 由 
comm_old 指 定 的 通信 和 器 中 的 进程 总 数 ， 那 么 某 些 进程 将 不 是 笛 卡 儿 结 构 的 组 成 部 分 。 对 于 
这 些 进程 来 说 ，comm_cart 的 值 将 被 设置 为 4PI_COMM_NULL (一 个 由 MPI 定 义 的 常量 )。 
若 由 dims 指 定 的 进程 的 总 数 大 于 通信 器 comm_o1d 中 的 进程 总 数 ， 则 导致 出 错 。 

进程 命名 使 用 第 卡 儿 拓扑 结构 后 ， 每 个 进程 就 能 更 好 地 用 结构 中 的 坐标 标识 。 但 是 ,我 
们 描述 的 所 有 用 于 发 送 和 接收 消息 的 MPI 函 数 ， 都 要 求 用 进程 的 等 级 指定 每 条 消息 的 源 和 目 
标 。 所 以 ，MPI 提 供 两 个 函数 MPI_Cart rank 和 MPI Cart coorad， 用 来 分 别 进行 从 坐标 
到 等 级 以 及 从 等 级 到 坐标 的 转换 。 这 两 个 例 行 程序 的 调用 序列 如 下 : 


int MPI Cart rank (MPI Comm comm cart, int *coords, int *rank) 
int MPI Cart coord(MPI Comm comm cart, int rank, int maxdims, 
int *coords) 


MPI_Cart_rank 以 数组 coords 中 的 进程 的 坐标 作为 参数 ， 并 用 rank 返 回 进程 的 等 级 。 
MPI_Cart_coord 以 进程 的 等 级 作为 参数 ， 并 返回 数组 coords 中 的 笛 卡 儿 坐标 及 长 度 
maxdims 。 要 注意 ，maxdims 至 少 要 等 于 由 通信 器 comm_cazrt 指 定 的 笛 卡 儿 结 构 的 维 数 。 

道 常 ， 在 笛 卡 儿 结构 中 的 进程 之 间 的 通信 和 都 是 沿 着 某 一 维 交换 数据 。MPI 提 供 函 数 
MPI_Cart_shift， 用 来 计算 在 数据 交换 操作 中 源 进 程 和 目标 进程 的 等 级 。 这 个 函数 的 调用 
序列 如 下 : 

int MPI_Cart_ shift (MPI Comm comm cart, int dir, int s step, 

int *rank source, int *rank dest) 

数据 交换 的 方向 由 参数 dir 指 定 ， 并 且 是 拓扑 结构 的 一 个 维 。 交 换 数 据 的 大 小 由 参数 
s_step 指 定 。 计 算出 的 等 级 在 rank_source 和 rank_dest 中 返回 。 如 果 币 卡 儿 结构 是 用 
环绕 连接 创建 的 (有 即 periods[dir] 项 设置 为 真 )， 那 么 数据 环绕 交换 ; 否则 ， 对 于 那些 在 
拓扑 结构 外 的 进程 ， 对 其 rank_source 和 rank_dest 返 回 值 MPI_PROC NULL。 


6.4.2 实例 : Cannon 的 和 矩 阵 与 和 矩 阵 相 科 


为 了 展示 如 何 使 用 不 同 的 拓扑 结构 函数 ， 我 们 用 这 些 函 数 实现 将 矩阵 4 和 B 相 乘 的 Cannon 
算法 ， 算 法 在 8.2.2 节 中 说 明 。Cannon 算 法 把 进程 看 作 按 虚 拟 的 二 维 正方 形 数组 排列 ， 它 用 这 
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个 数组 以 块 的 形式 来 分 配 和 矩阵 4、B 以 及 结果 抢 阵 C。 也 就 是 说 ， 如 果 每 个 矩阵 的 大 小 为 上 x n， 
进程 的 总 数 为 p， 那 么 每 个 矩阵 都 被 分 成 大 小 为 4W/VP xm/VP (假设 p 是 完全 平方 数 ) 的 方块 。 
对 网 格 中 的 进程 P,， 分 配 每 个 矩阵 的 4, 、B,; 和 C,， 块 。 经 过 初始 的 数据 对 齐 后 ， 算 法 将 执 
行 Vp 步 。 在 每 一 步 中 ， 每 个 进程 都 对 本 地 可 获得 的 矩阵 4 和 8 中 的 块 相 乘 ， 然 后 把 4 中 的 块 送 
给 左 侧 的 进程 ，B 中 的 块 送 给 上 面 的 进程 。 

程序 6-2 显 示 实 现 Cannon 算 法 的 MPI 国 数 。 移 阵 的 维 数 用 和 参数" 提供。 参数 a、b、c 分 别 指 
向 矩阵 4、B8、C 中 在 本 地 存储 的 部 分 。 数 组 的 大 小 为 a/ Vp xn/Vp ， 其 中 p 是 进程 的 数目 。 这 
个 例 行 程序 假设 p 是 完全 平方 数 ， 且 n 是 VP 的 整数 倍数 。 参 数 comm 存 储 描述 进程 的 通信 器 ， 
这 些 进程 调用 MatrixMatrixMultiply 函 数 。 本 章 中 剩余 的 程序 以 函数 的 形式 提供 ， 而 不 
用 完全 独立 的 程序 形式 。 

程序 6-2 用 MPI 拓 扑 实现 Cannon 的 和 矩阵 与 矩阵 相对 





MatrixMatrixMultiply (int n, double *a, double *b, double *c, 
MPI_Comm comm) 
{ 
int i; 


1 

2 

3 

4 

5 int nlocail.; 
6 int npes, dims [2] periods [2] ; 

7 int myrank, my2drank, mycoords [2] ; 

8 int uprank, downrank, leftrank, rightrank, coords [2]; 
9 int shiftsource, shiftadest,; 

10 MPI Status status, 

11 MPI_Comm comm 2d; 


13  /*Get the communicator related information */ 
14 MPI_ Comm size(comm, &npes); 
15 MPI_Comm rank (comm, &myrank) ; 


17 [Setup the Cartesian topology */ 
18 dims [0] = dims [1] = sqrt (npes); 


20 [Set the periods for wraparound connections */ 
21 periods[0] = periods [1】 = 1， 


22 

23 [人 Create the Cartesian topology, with rank reordering */ 

24 MPI Cart_ create(comm, 2, dims, periods, 1, gcomm 2d); 
25 


26 /” Get the rank and coordinates with respect to the new topology */ 
27 MPI_Comm_ rank (comm 2d, gmy2drank); 
28 MPI_Cart_coords (comm 2d, my2drank, 2, mycoords); 


30 /* Compute ranks of the up and left shifts */ 
31 MPI_Cart_shift (comm 2d, 0, -1, &rightrank, &leftrank); 
32 MPI_Cart_shift (comm 2d, 1, -1, &downrank, guprank); 


34  /*Determine the dimension of the local matrix block */ 
35 nlocal = Nn/dims [0]:; ， 


37 /* Perform the initial matrix alignment First for A and then forB*/ ， 

38 MPI Cart shift {comm 2d, 0, -mycoords [0] ， &kahiftsource, &shiftdest), 
39 MPI_Sendrecv replace l(a, nlocal*nlocal, MPI DOUBLE， shiftdest, 

40 i, shiftsource, 1, comm 2d, &status).; 


42 MPI Cart_shift (comm 2d, 1, -mycoords{1], &shiftsource, &shiftdest); 
43 MPI_ Sendrecv_ replace(b, nlocal*nlocal, MPI1_ DOUBLE, 


44 shiftdest, 1, shiftsource, 1, comm 2d, g&status); 
45 

46 AL 人 Get into the main computation loop */ 

47 for (i=0; icdims {0]; i++) { 


48 MatrixMultiply (nlocal, a, b, c); /*c=c+a*b*/ 





49 

50 /* Shift matrix a left by one */ 

51 MPI Sendrecv replacela, nlocal*nlocal, MPI DOUBRLE, 
S52 leftrank, 1, rightrank, 1, comm 2d, &status),; 
S53 

54 /A* Shift matrix b up by one */ 

SS MPI Sendrecv replace{b, nlocal*nlocal, MPI DOUBLE., 
56 uprank, 1, downrank, 1, comm 2d, &status); 

57 } 

58 


59 /* Restore the original distribution of a and b */ 

60 MPI Cart shift (comm 2d, 0, +mycoords [0] gshiftsource, &shiftdest),; 
61 MPI Sendrecv replacela, nlocal*nlocal, MPI DOUBLE, 

62 shiftdest, 1, shiftsource, 1, comm 2d, &status); 


64 MPI Cart shift (comm 2d, 1, +mycoords [1}]}, &shiftsource, &shiftdest); 
65 MPT Sendrecv replace (lb, nlocal*nlocal, MPI DOUBLE, 


66 shiftdest, 1, shiftsource, 1, comm 2d, &status); 
67 

68 MPI Comm free(&comm 2d) ; /* Free up communicator */ 

69 

70 


71 /* This function performs a serial matrix-matrix multiplication c = a*b */ 
72 MatrixMultiplyl(int n, double *a, double x*b, double *c) 


73 

74 int i, j, Kk; 

75 

76 for {i=0; i<n; i++) 

77 for (j=0; j<n; j++) 

78 for ‘k=0; Kcn; K++) 

79 cli*n+j] += a{fixn+k]*b [kK*n+j]; 
80 


6.5 计算 与 通信 重 全 


到 目前 为 止 , 每 当 进 行 点 对 点 通信 时 , 我 们 开发 的 MPI 程 序 都 使 用 阻塞 式 发 送 和 接收 操作 。 
前 面 已 经 讲 过 ， 阻 塞 式 发 送 操作 在 消息 从 发 送 缓冲 复制 出 之 前 一 直 阻 塞 着 (无论 是 在 源 进程 
的 系统 缓冲 还 是 发 送 到 目标 进程 ) 。 同 样 ， 阻 塞 式 接收 操作 只 有 在 消息 接收 完毕 并 复制 到 接收 
缓冲 后 才 返 回 。 例 如 ， 考 虑 程序 6-2 中 Cannon 的 矩阵 相 乘 算法 。 在 主 计算 循环 (47 行 至 57 行 ) 


的 每 一 次 迭代 中 ， 首 先 要 计算 存储 在 a 和 Pb 中 的 子 和 矩阵 的 矩阵 相 乘 ， 然 后 用 MPI_Sendrecv_ 


replace 交 换 a 中 的 块 和 b 中 的 块 ， 这 个 操作 在 指定 的 年 阵 块 被 相应 的 进程 发 送 和 接收 前 一 直 
阻塞 。 在 每 一 次 迁 代 中 ， 每 个 进程 花费 时 间 CUzP…) 进 行 矩 阵 相 乘 ， 花 费时 间 O(/P) 进 行 矩 
阵 4 和 8 的 块 交换 。 现 在 ， 由 于 和 矩阵 4 和 8 中 的 块 在 处 理 器 之 间 交 换 时 并 不 改变 ， 可 以 让 和 矩阵 和 
矩阵 相 乘 的 运算 与 这 些 块 的 传送 重 登 。 许 多 新 近 的 分 布 式 内存 并 行 计 算 机 都 有 专门 的 通信 控 
制 器 ， 能 够 执行 消息 传送 操作 而 不 需要 CPU 的 干预 。 


无 阻塞 式 通 信 操 作 


为 了 让 计算 与 通信 重合 ，MPI 提 供 一 对 执行 无 阻塞 式 发 送 和 接收 操作 的 函数 。 它 们 分 别 是 
MPI_Isend 和 MPI_Irecv。MPI_Isend 开 始 一 个 发 送 操作 ， 但 不 等 它 完 成 ， 也 就 是 说 ,在 
数据 复制 出 缓冲 区 前 就 返回 。 同 样 ，MPI_Irecv 开 始 一 个 接收 操作 ， 但 在 数据 接收 完毕 并 且 
复制 到 缓冲 区 前 就 返回 。 依 靠 相 应 的 硬件 支持 ， 在 两 个 函数 返回 前 ， 消 息 的 传送 和 接收 就 能 
和 程序 中 的 计算 操作 同时 进行 。 

人 然而， 在 程序 的 后 面部 分 ， 开始 一 个 无 阻塞 式 发 送 或 接收 操作 的 进程 必须 确保 操作 在 计 
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算 前 已 经 结束 。 这 是 因为 ， 开 始 无 阻塞 式 发 送 操作 的 进程 可 能 需要 覆盖 存储 待 发 送 数 据 的 组 
冲 区 ， 或 者 开始 无 阻塞 式 接 收 操作 的 进程 可 能 需要 使 用 它 请 求 的 数据 。 为 了 检查 无 阻塞 式 发 
送 和 接收 操作 龙 售 完 成 ，MPI 提 供 一 对 函数 MPI_Test 和 MPI_Wait。 前 者 检查 无 阻塞 式 操 作 
是 否 己 完成 ， 后 者 等 待 〈 即 阻塞 ) 直到 无 阻塞 式 操作 真正 结束 。 

MPI Isend 和 MPI Irecv 的 调用 序列 如 下 : 


int MPI Isend{void *buf, int count, MPI Datatype datatype, 

int dest, int tag, MPI Comm comm, MPI Request *request) 
int MPI Irecv(void *buf, int count, MPI Datatype datatype, 

int source, int tag, MPI Comm comm, MPI Request *request) 


注意 这 两 个 函数 与 相应 的 阻塞 式 发 送 和 接收 函数 有 类 似 的 参数 。 主 要 区 别 是 这 两 个 函数 
中 多 了 参数 zequest。MPI_Isend 和 MPI_Irecv 国 数 分 配 一 个 请 求 (requesb 对 象 并 返回 一 
个 指 各 request 变量 的 指针 。 这 个 请 求 对 象 作为 MPI -Test 和 MPI _Wait 国 数 中 的 参数 ， 用 
来 确定 那些 我 们 需要 查询 其 状态 或 等 待 其 完成 的 操作 。 

注意 ， 与 阻塞 式 接收 操作 类 似 ，MPI_Irecv 函 数 不 用 status 参 数 ， 但 是 与 接收 操作 有 
关 的 状态 信息 通过 MPI Test 和 MPI Wait 函 数 返 回 。 


int MPI_ Test (MPI Request *requegst, int *flag, MPI_ Status *status) 
int MPI Wait (MPI Request *request, MPI Status *status) 


MPI_Test 测 试 由 request 人 确定 的 无 阻塞 式 发 送 或 接收 操作 是 否 已 完成 。 如 果 已 完成 ， 
则 返回 flag={true} (在 C 语 言 中 的 非 0 值 )， 否 则 返回 {false} (C 语 言 中 的 0 值 )。 在 无 阻 
寒 式 操作 完成 后 ， 由 变量 request 指 向 的 请 求 对 象 被 解除 分 配 ，request 被 设置 为 
MPI_REQUEST_NULL。 同 时 status 对 象 被 设置 为 包含 与 操作 有 关 的 信息 。 如 果 操 作 未 完成 ， 
request 就 不 被 修改 ，status 对 象 中 的 值 是 末 定 义 的 。 MPI_ Wait 霄 数 在 由 request 确 定 
的 无 阻塞 式 操作 完成 前 一 直 阻 塞 。 在 这 种 情况 下 ， 它 解除 分 配 request 对 象 ， 将 其 设置 为 
MPI_REQUEST_NULL， 并 在 status 对 象 中 返回 有 关 已 完成 操作 的 信息 。 

对 于 程序 员 想 要 显 式 解除 分 配 一 个 请 求 对 象 的 情况 ， MPI 提 供 下 述 函数 


int MPI_ Request free (MPI Request *request) 


注意 ， 请 求 对 象 的 解除 分 配对 相关 的 无 阻塞 式 发 送 和 接收 操作 没有 任何 影响 。 也 就 是 说 ， 
如 果 这 些 操 作 未 完成 ， 它 们 会 继续 进行 直至 完成 。 因 此 ， 一 定 要 小 心地 对 请 求 对 象 进行 显 式 
解除 分 配 ， 因 为 没有 请 求 对 象 就 不 能 测试 无 阻塞 式 操作 是 否 已 完成 。 

无 阻塞 式 通信 操作 可 以 和 相应 的 阻塞 式 操作 相 匹配 。 例 如 ， 进 程 可 以 用 无 阻塞 式 发 送 操 
作 发 送 消息 ， 此 消息 可 以 由 其 他 进程 用 阻塞 式 接收 操作 接收 。 

避免 死 锁 ”使 用 无 阻塞 式 通信 操作 可 以 除去 绝 大 多 数 与 阻塞 式 通 信 操 作 相 关 的 死 锁 。 例 
如 ， 我 们 在 6.3 节 讨论 过 ， 下 面 的 代码 是 不 安全 的 。 
int a[i0], bi{10], myrank,; 


MPI Status status; 


MPI_Comm rank (MPI_ COMM WORLD，&myrank) ; 
if (myrank == 0) { 
MP1 Sendl(a, 10, MPI _INT, 1, 1, MPI _COMM WORLD).; 
MPI Send(b, 10, MPI_ INT, 1, 2, MPI _COMM WORLD) ; 
else if (myrank == 1) { 
MPI Recv(b, 10, MPI_INT, 0, 2, &status, MPI_ COMM WORLD) ; 
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MPI_Recvla, 10, MPI INT, 0, 1, &status, MPI COMM WORLD); 


} 


然而 ， 如 果 将 发 送 和 接收 操作 中 的 任 一 个 用 它们 对 应 的 无 阻塞 式 操作 人 代替， 代码 就 将 是 
安全 的 ， 


并 可 以 在 任何 MPI 实 现 上 正确 运行 。 


int al[li0], b[10], myrank; 
MPI Status status; 
MPI Request requests(2],; 


MPI Comm rank (MPI COMM _ WORLD ，&myrank) :; 

if (myrank == 0) { 
MPI_Send(a, 10, MPI_INT, 1, 1, MPI COMM _ WORLD) ; 
MPI_Send{(b, 10, MPI INT, 1, 2, MPI_ COMM NORLD) ; 


else if (myrank == 1) { 
MPI_Irecvi{b, 10, MPI_INT, 0, 2, &requests{0], MPI COMM WORLD); 
MPI_Irecvla, 10, MPI_INT, 0, 1, &requests{1], MPI COMM WORLD); 


} 


这 个 例子 也 说 明 ， 由 任意 进程 启动 的 无 阻塞 式 操 作 ， 可 以 按 相 应 消息 的 传送 或 接收 所 确 
定 的 任意 顺序 完成 。 例 如 ， 第 二 个 接收 操作 将 在 第 一 个 之 前 完成 。 


实例 : Cannon 的 矩阵 与 矩阵 相 乘 (使 用 无 阻塞 式 操作 ) 
程序 6-3 显 示 用 无 阻塞 式 发 送 和 接收 操作 实现 的 Cannon 算 法 的 MPI 程 序 ， 其 中 的 参数 与 程 
序 6-2 中 的 相同 。 : 





程序 6-3 无 阻 吉 式 Cannon 的 矩 阵 与 矩 阵 相 对 


MatrixMatrixMultiply NonBlocking (int n, double *a, double *b, 
double *c, MPI Comm comm) 
{ 


int i, j, nlocal; 

double x*a buffers[2]}, *b buffers [2]},; 

int npes, dims [2], periods [2]】 ; 

int myrank, my2drank, mycoords {2]; 

int uprank, downrank, leftrank, rightrank, coords {2]; 
int shiftsource, shiftdest; 

MPI Status Status ; 

MPI_ Comm comm 2d; 

MP1 Request reqs [4]; 


/* Get the communicator related information */ 
MPI_Comm size(comm, &npes),; 
MPI_Comm rank (comm, gmyrank); 


/* Set up the Cartesian topology */ 
dims [0] = dims{1)] = sgrt (npes); 


/* Set the periods for wraparound connections */ 
periods [0] = periods [1] = 1; 


/* Create the Cartesian topology, with rank reordering */ 
MPI_Cart createl(comm, 2, dims, periods, 1, &comm 2d) ; 


/* Get the rank and coordinates with respect to the new topology */ 
MPI _ Comm rank (comm 2d, gmy2drank),; 
MPI_ Cart coords (comm 2G, my2drank, 2, mycoords), 


/A* Compute ranks of the up and left shifts */ 
MPI Cart shift (comm 2d, 0, -1, &rightrank, &leftrank).; 
MPI Cart shift (comm 2d, 1, -1, &downrank, guprank); 
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35 /* Determine the dimension of the local matrix block */ 
36 nlocal = n/dims (0]; 


38 /* Setup the a buffers and b buffers arrays */ 


39 a buffers[0] = a; | 
40 a buffers{1] = (double *})malloc (nlocal*+nlocal*sizeof (double)).; 
41 b buffters [0] = b; 


42 b buffers [1) (double *)malloc (nlocal*nlocal*sizeof (double)}., 


258 44 /* Perform the initial matrix alienment. First for A and then for B */ 
45 MPI_Cart_shift (comm 2d, 0, -mycoords{[0]}, &shiftsource, &shiftdest),; 
46 MPI _Sendrecv _replace (a buffers{0}, nlocalxnlocal, MPI DOUBLE, 
47 shiftdest, 1, shiftsource, 1, comm 2d, &status),; 


49 MPI_ Cart shift (comm 2d, 1, -mycoords[1]}, &shiftsource, gshiftdest),; 
50 MPI _Sendrecv _replace (b buffers [0]l, nlocal*nlocal, MPI DOUBLE, 


51 shiftdest, 1, shiftsource, 1, comm 2d, &status).; 

S52 

53 /* Get into the main computation loop */ 

54 for (i=0; i<cdims[0]; i++) { 

55 MPI Tsendla buffers [i%2]}, nlocal*nlocal, MPI _DOUBLE, 

56 leftrank, 1, comm 2d, &reqs {0]); 

S57 MPI Isendi{b buffers [i%2], nlocal*nlocal, MPI DOUBLE, 

58 uprank, 1, comm 2d, g&reqs [1]); 

59 MPI Irecvt{a buffers! (i+1i)%2], niocal*nlocal, MPI DOUBLE, 
60 rightrank, 1, comm 2d, &regs [2] ) ; 

61 MPI Irecyv (hb buffers[ (i+1)%2]}, nliocal*nlocal, MPI _DOUBLE, 
62 downrank, 1, comm 2d, &regqs [3]); 

63 

64 AC=cec+aDb*/ 

65 MatrixMultiply (nlocal, a buffers[i%2], b buffers{i%2], c); 
66 

67 for (j=0; j<4; j++) 

68 MPI Wait (greqs []] ，&status) ; 

69 

70 


71 [Restore the original distribution of a and b */ 

72 MPI Cart_ shift (comm 2d, 0, +mycoords {0], &shiftsource, &shiftdest)., 
73 MPI _Sendrecv _replace (a _buffers [i%®2], nlocal*nlocal, MPI _DOUBLE, 

74 shiftdest, 1, shiftsource, 1, comm 2d, &status); 


76 MPI_Cart_shift (comm 2d, 1, +mycoords {1]}, ushiftsource, &shiftdest); 
77 MPI _Sendrecv _replace (b _buffers [iyg2] ，nlocal*nlocal ，MPI _DOUBLE, 


78 shiftdest, 1, shiftsource, 1, comm 2G，&status) ; 
79 

80 MPI Comm free(&comm 2d); /* Free up communicator */ 

81 


82 free (a buffers{1]); 
83 free (b buffers [1]) ; 





阻塞 式 程序 (程序 6-2) 与 这 个 无 阻塞 式 程序 之 间 有 两 个 主要 区 别 。 第 一 个 区 别 是 ， 无 阻 
寒 式 程序 需要 使 用 另 两 个 数组 a_buffers 和 b_buffers， 它 们 作为 块 4 和 块 B 的 绿 冲 区 ， 在 
执行 涉及 前 面 块 的 计算 进行 时 被 接收 。 第 二 个 区 别 是 ， 在 主 计算 循环 ， 无 阻塞 式 程序 首先 所 
动 无 阻塞 式 发 送 操作 ， 将 本 地 存储 的 块 4 和 块 8 发 送 到 网 格 左边 和 上 边 的 进程 ， 然 后 启动 无 阻 
塞 式 接收 操作 ,接收 下 一 次 迭代 来 的 网 格 右边 和 下 边 进程 的 块 。 在 启动 这 4 个 无 阻塞 式 操 作 后 ， 
继续 进行 当前 存储 块 的 矩阵 与 矩阵 相 乘 。 最 后 ， 在 进行 下 --- 次 和 迭代 前 ， 使 用 MPI_Wait 等 竺 
发 送 和 接收 操作 完成 。 
注意 ， 为 了 让 计算 与 通信 重 又 ， 我 们 必需 使 用 两 个 辅助 数组 一 一 一 个 用 于 A，-- 个 用 于 B。 
[259| 这 是 为 了 保证 到 来 的 消息 不 覆盖 在 计算 中 使 用 的 块 4 和 块 B， 计算 与 数据 传送 是 并 发 进行 的 。 





这 样 ， 性 能 的 提高 (通过 计算 与 通信 重 又 ) 以 增加 内 存 需 求 为 代价 。 这 是 消息 传递 程序 中 经 
贡 作 出 的 一 种 折 中 ， 因 为 对 于 低 耦 合 分 布 式 内 存 的 并 行 计算 机 而 言 ， 通 信 开 销 非 常 大 。 


6.6 聚合 的 通信 和 计算 操作 


MPI 提 供 了 大 量 的 函数 ， 用 来 进行 许多 常用 的 聚合 通信 操作 。 特 别 ，MPI 支 持 第 4 章 讲 到 
的 绝 大 多 数 基本 通信 操作 。 所 有 MPI 提 供 的 聚合 通信 函数 以 通信 器 作为 参数 ， 通 信和 器 定义 参 
与 宗 合 操作 的 一 组 进程 。 属 于 通信 器 的 所 有 进程 都 参与 到 操作 中 ， 并 且 都 必需 调用 聚合 通信 
轴 数 。 虽 然 聚 合 通信 操作 不 像 障 碍 那样 工作 ( 即 处 理 器 可 能 跳 过 对 聚合 通信 操作 的 调用 ， 即 
使 在 其 他 的 进程 到 达 它 之 前 )， 但 它 像 下 述 意义 下 的 虚拟 同步 : 即使 在 聚合 调用 前 或 者 聚合 调 
用 后 进行 了 一 次 全 局 同步 操作 ， 并 行程 序 也 应 该 正确 运行 。 由 于 操作 是 虚拟 同步 的 ， 操 作 不 
需要 标志 。 在 一 些 罕 合 函数 中 ， 要 求 数据 从 单个 进程 ( 源 进程 ) 发 送 ， 或 者 由 单个 进程 〈 目 
标 进程 ) 接收 。 在 这 些 函 数 中 ， 源 进程 或 目标 进程 是 对 例 行 程序 提供 的 参数 之 一 。 所 有 组 内 
( 即 通信 和 器) 的 进程 必须 指定 相同 的 源 进程 或 目标 进程 。 对 于 绝 大 多 数 聚合 通信 操作 ，MPI 提 
供 两 个 不 同 的 变 体 ， 一 个 用 来 在 每 个 进程 间 传 送 同样 大 小 的 数据 ， 另 一 个 传送 的 数据 大 小 可 
以 不 同 。 


6.6.1 障碍 
在 MPI 中 ， 障 碍 同步 操作 用 MPI_Barrier 国 数 实 现 。 


int MPI_ Barrier (MPI_Comm comm) 
MPI_Barzier 国 数 中 只 有 通信 器 一 个 参数 ， 它 定义 被 同步 的 进程 组 。 对 MPI_Barrier 
的 调用 只 有 在 组 中 的 所 有 进程 调用 了 这 个 函数 后 才 返 回 。 


6.6.2 广播 
4.1 节 中 讲 过 的 一 对 多 广播 操作 在 MPI 中 用 MPI_Bcast 函 数 实现 。 


int MPI_Bcast (void *buf, int count, MPI Datatype datatype, 
int source, MPI Comm comm) 


MPI_Bcast 将 存储 在 进程 source 的 缓冲 区 buf 中 的 数据 发 送 到 组 中 所 有 其 他 的 进程 。 
每 个 进程 接收 到 的 数据 都 存储 在 缓冲 区 buf 中 。 被 广播 的 数据 中 ， 类 型 为 aatatype 的 数据 
有 count 项 。 由 source 进 程 发 送 的 数据 量 必需 等 于 每 个 进程 要 接收 的 数据 量 ， 也 就 是 说 ， 
在 所 有 的 进程 中 ，count 和 datatype 字 段 必需 匹配 。 


6.6.3 归 约 


4.1 市 中 讲 过 的 多 对 一 归 约 操作 在 MPI 函 数 中 用 MPI_ Reduce 函数 实现 。 


int MPI_Reauce (void *sendbuf, void *recvbuf, int count, 
MPI Datatype datatype, MPI Op op, int target, 
MPI_ Comm comm) 


MPI_Reduce 国 数 使 用 由 op 指定 的 操作 符 将 组 内 每 个 进程 中 存储 于 缓冲 区 sendbuf 的 元 
素 组 合 起 来 ， 并 用 等 级 为 target 的 进程 中 的 缓冲 区 recvbuf 返 回 组 合 后 的 值 . sendbuf 和 
recvbuf 中 类 型 为 datatype 的 数据 项 数目 都 必需 为 count。 注 意 ， 所 有 的 进程 都 必需 提供 
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一 个 recvbuf 数 组 ， 即 使 这 些 进程 不 是 归 约 操作 的 目标 (target)。 当 count 大 于 1 时 ， 组合 操 
作 按 序列 中 的 每 个 数据 项 的 逐个 进行 。 所 有 的 进程 都 必需 以 同样 的 count、datatype、op、 
target 和 comm 调 用 MPI Reduce。 

MPI 提 供 一 系列 预定 义 的 操作 ， 可 以 用 于 对 存储 于 sendqbuf 中 的 元 素 进行 组 合 。MPI 也 
允许 程序 员 自 己 定义 操作 ,但 本 书 不 讨论 这 一 点 。 表 6-3 列 出 了 预定 义 的 操作 。 例 如 ， 为 了 计 
算 存 储 在 sendbuf 中 的 元 素 的 最 大 值 ，op 参 数 的 值 就 必需 为 MPI_MRAX。 并 非 表 中 所 有 的 操 
作 都 能 应 用 于 MPI 支 持 的 所 有 可 能 的 数据 类 型 。 例 如 ， 按 位 或 操作 ( 即 op = MPI_BOR) 对 实 
型 的 数据 就 没有 定义 ， 如 MPI_FLOAT 和 MPI_REAL。 表 6-3 中 的 最 后 一 列 显示 可 以 用 于 每 个 
操作 的 不 同 数据 类 型 。 


表 6-3 ”预定 义 的 归 约 操作 





操作 含 义 数据 类 型 
MPI MAX 最 大 值 C 整 型 及 浮 点 型 
MPI_MIN 最 小 值 C 整 型 及 浮 点 型 
MPI SUM 求 和 C 整 型 及 浮 点 型 
MPI PROD 求 积 C 整 型 及 浮 点 型 
MPI_LRAND 逻辑 与 C 束 型 
MPI_BRAND 按 位 与 C 整 型 及 字 节 型 
MPI_LOR 有 逻辑 或 C 整 型 

MPI BOR 按 位 或 C 整 型 及 字 节 型 
MPI LXOR 逻辑 异 或 C 整 型 

MPI BXOR 按 位 异 或 C 整 型 及 字 节 型 
MPI_MRAXLOC 最 大 -最 小 值 单元 数据 对 
MPI_MINLOC 最 小 -最 小 值 单元 数据 对 





MPI_MAXLOC 操 作对 数值 对 (v; , 4; ) 进 行 组 合 ， 并 返回 数值 对 (v, 1!)， 其 中 v 是 所 有 v; 中 的 最 
大 值 ， 是 当 " = vi; 时 所 有 ii; 中 的 最 小 值 。 同 样 ，MPI_MINLOC 操 作对 数值 对 进行 组 合 ， 并 返回 
数值 (v, 0 对 ， 其 中 v 是 所 有 v 中 的 最 小 值 ，! 是 当 vy = vi 时 所 有 i 中 的 最 小 值 。MPI_MAXLOC 和 
MPI_MINLOC 可 以 用 来 计算 位 于 不 同 进程 中 的 一 系列 数 的 最 大 值 或 最 小 值 ， 并 求 出 存储 最 大 
值 或 最 小 值 的 第 一 个 进程 ,如 图 6-6 所 示 。 由 于 MPI_MAXLOC 和 MPI_MINLOC 需 要 成 对 的 数据 ， 
MPI 又 定义 了 一 组 新 的 数据 类 型 ， 如 表 6-4 所 示 。 在 C 语 言 中 ， 这 些 数 据 类 型 是 用 包含 相应 类 


的 结构 实现 的 。 


MinLoc {Value, Process) = (11，2) 
MaxLoc (Value, Process) = (17, 1) 
图 6-6 一 个 使 用 MPI_MINLOC 和 MPI_MAXLOC 操 作 符 的 例子 


如 采 所 有 的 进程 都 需要 归 约 操作 的 结果 ， 则 可 使 用 MPI 提 供 的 MPI_Allreauce 操 作 。 这 
个 国 数 提供 4.3 节 讲述 的 全 归 约 操作 的 功能 。 
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int MPI Allreduce (void *sendbuf, void *recvbuf, int count, 
MPI Datatype datatype, MPI Op op, MPI Comm comm) 


注意 ， 由 于 所 有 的 进程 都 接收 归 约 操作 的 结果 ， 此 函数 中 不 含 target 佐 数 。 
表 6-4 用 于 MPI_MAXLOC 和 MPI_MINLOC 归 约 操作 的 MPI 数 据 对 数据 类 型 


MPI 数 据 类 型 C 数 据 类 型 
MPI 2INT int 对 
MPI SHORT _ INT short 和 int 
MPI _ LONG INT long 和 int 
MPI LONG DOUBLE INT long double 和 int 
MPI FLOAT INT float 和 int 
MPI DOUBLE INT double 和 int 





6.6.4 ”前缀 
4.3 布 讲述 的 前 组 和 操作 在 MPI 中 用 MPI_Scan 函 数 实现 。 


int MPI_Scan (void *sendbuf, void *recvbuf, int count, 
MP1 Datatype datatype, MPIT Op op, MPI Comm comm) 


MPI_Scan 对 存储 在 每 个 进程 的 缓冲 区 sendbuf 中 的 数据 进行 前 绥 归 约 ， 并 在 缓冲 区 
revcbuf 中 返回 结果 。 在 归 约 操作 的 最 后 ， 等 级 为 的 进程 的 接收 缓冲 区 ， 将 存储 等 级 由 0 到 ; 
(包括 站 的 进程 的 发 送 缓冲 区 中 的 归 约 结果 。MPI_Scan 支 持 的 操作 类 型 ( 即 op ) 以 及 对 国 
数 中 不 同 变量 的 限制 ， 都 与 API_Reduce 归 约 操作 相同 。 


6.6.5 收集 
4.4 节 讲述 的 收集 操作 在 MPI 中 用 MPI_Gather 函 数 实现 。 


int MPI Gather (void *sendbuf, int gendcount, 
MPI_Datatype senddatatype, void *recvbuf, int recvcount, 
MEFI_Datatype recvdatatype, int target, MPI Comm comm) 


每 个 进程 (包括 target 进 程 ) 将 存储 在 数组 sendbuf 中 的 数据 发 送 给 target 进 程 。 结 
果 ， 如 果 p 是 通信 comm 中 处 理 器 的 数目 ， 则 目标 进程 将 接收 的 缓 仲 区 总 数 为 p。 数 据 按 等 级 顺 
序 存 储 在 目标 进程 的 recvbuf 数 组 中 。 就 是 说 ,来自 等 级 为 的 进程 的 数据 存储 在 recvbuf 
中 ， 起 始 单元 为 i* sendcount (假设 数组 recvbuf 与 recvdatatype 的 类 型 相同 )。 

每 个 进程 发 送 的 数据 必需 具有 相同 的 类 型 和 大 小 ， 即 调用 MPI_Gather 时 ， 参 数 
sendcount 和 senddatatype 必 需 在 每 个 进程 中 具有 同样 的 值 。 只 有 目标 进程 需要 知道 有 
大 接收 缓存 的 信息 ， 如 接收 缓存 的 长 度 及 类 型 ， 而 其 他 所 有 进程 都 忽略 这 些 信 息 。 参 数 
recvcount 指 定 每 个 进程 接收 的 元 素数 目 而 不 是 接收 的 元 素 总 数目 。 所 以 ，recvcount 必 
种 和 sendcount 相 同 ， 这 两 者 的 类 型 也 必需 匹配 。 

MPI 还 提供 MPI_A1llgather 函 数 ， 它 为 所 有 的 进程 收集 数据 而 不 是 仅 给 目标 进程 。 

int MPI Allgather (void *sendbuf, int sendcount, 


MPI Datatype senddatatype, void *recvbuf, int recvcecount, 
MPI_ Datatype recvdatatype, MPI Comm comm) 


2 
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其 中 各 个 参数 的 含义 与 国 数 MPI_Gathezr 中 的 相似 ; 但 是 ， 每 个 进程 都 必需 提供 一 个 
recvbuf 数 组 来 存储 收集 的 数据 。 

上 面 提 到 的 收集 操作 中 ， 每 个 进程 发 送 的 数组 大 小 都 相等 ， 此 外 ,MPI 还 提供 了 数组 大 小 
可 以 不 等 的 收集 操作 ，MPI 称 这 种 操作 为 向 量 (vector) 变 体 。MPI_Gather 和 MPI 
Allgather 操 作 的 向 量变 体 分 别 由 函数 MPI_Gatherv 和 MPI Allgatherv 提 供 。 


int MPI Gathervlvoid *sendbuf, int sendcount, 
MPI Datatype senddatatype, void *recvbuf, 
int *recvcounts, int *displs, 
MPI_ Datatype recvdatatype, int target, MPI Comm comm) 


int MPI Allgatherv (void *sendbuf, int sendcount, 
MPI Datatype senddatatype, void *recvbuf, 
int *recvecounts, int *displs, MPI Datatype recvdatatype, 
MPI_Comm comm) 


将 recvcount 参 数 用 数组 recvcounts 人 代替 ， 这 两 个 函数 就 能 使 每 个 进程 发 送 不 同 数 
量 的 数据 元 素 。 进 程 ;发 送 的 数据 量 等 于 recvcounts[i]。 注 意 Recvcounts 与 通信 和 器 
comm 的 大 小 相等 。 数 组 参数 displs 的 大 小 也 和 它们 相等 。displs 用 来 确定 由 每 个 进程 发 
送出 的 数据 存储 于 revebuf 中 的 位 置 。 特 别 ， 由 进程 发 送出 的 数据 存储 于 recvbuf 中 起 始 
单元 为 displs[i] 的 地 方 。 注 意 与 非 向 量变 体 相 反 ，、 对 于 不 同 的 进程 ， 参 数 sendcount 也 
可 以 不 同 。 


6.6.6 散发 
4.4 东 讲 到 的 散发 操作 在 MPI 中 用 MPI_scatter 邱 数 实现 。 


int MPI_Scatter (void *sendbuf, int gendcount, 
MPI_ Datatype senddatatype, void *recvbuf, int recvcount, 
MPI_ Datatype recvdatatype, int source, MPI Comm comm) 


源 进程 将 发 送 缓 冲 sendbuf 中 的 不 同 部 分 发 送 给 每 个 进程 ， 也 包括 它 自身 。 接 收 到 的 数 
据 存 储 于 recvbuf 中 。 进程 接收 sendcount 个 类 型 为 senddatatype 连 续 的 元 素 ， 这 些 元 
素 从 源 进 程 中 缓冲 区 sendbuf 的 ! +sendcount 单 元 开始 (假设 sendbuf 与 senddatatype 
的 类 型 相同 )。 所 有 进程 调用 MPI_Scatter 时 ， 都 必须 使 用 同样 值 的 sendcount、 
senddatatype、recvcount、recvdatatype、source 以 及 comm 参 数 。 再 次 注意 ， 
sendcount 是 发 送 员 每 一 个 进程 的 元 素数 目 。 . 

与 收集 操作 类 似 ，MPI 提 供 散 发 操作 的 向 量变 体 ， 称 为 MPI_Scatterv， 它 人 允许 将 不 同 
数量 的 数据 发 送 给 不 同 的 进程 。 

int MPI_Scatterv (void *gendbuf, int *sendcounts, int *displs, 


MPI_Datatype senddatatype, void *recvbuf, int recvcount, 
MPI Datatype recvdatatype, int source, MPI_Comm comm) 


从 上 面 的 消 数 可 以 看 出 ， 数 组 sendcounts 人 代替 了 参数 sendcount ， 该 数组 确定 发 送 给 
每 个 进程 的 元 素数 目 。 特 别 地 ， target 进 程 发 送 sendcounts[i] 个 元 素 给 进程 i。 同 样 ， 
数组 di sp1s 用 来 确定 这 些 元 素 从 sendbuf 的 何 处 发 送出 。 特 别 ， 如 果 sendbuf 和 和 
senddatatype 的 类 型 相同 , 那么 发 送 到 进程 的 数据 起 始 于 数组 sendbuf 的 displs[i] 处 ， 
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数组 sendcounts 和 displs 的 大 小 与 通信 器 中 的 进程 数目 相等 。 注 意 如 果 适 当地 设置 
displs 数 组 ， 就 能 用 MPI Scatterv 发 送 sendbuf 中 的 重 谷 区域。 


6.6.7 多 对 多 
4.5 三 中 讲 过 的 多 对 多 私自 通信 操作 在 MPI 中 用 MPI _Alltoall 南 数 实 现 。 


int MPI Alltoall (void *sendbuf, int Sendcount, 
MPI Datatype senddatatype, void *recvbuf, int recvcount, 
MPI_Datatype recvdatatype, MPI Comm comm) 


每 个 进程 发 送 数组 sendbuf 中 的 不 同 部 分 给 其 他 每 个 进程 ， 包 括 它 自身 。 每 个 进程 发 送 
给 进程 sendcount 个 类 型 为 senddatatype 连 续 的 元 素 ， 这 些 元 素 从 它 的 sendbuf 数 组 
中 i*sendcount 单 元 开始 。 接 收 到 的 数据 存储 于 数组 recvbuf 中 。 每 个 进程 从 进程 接收 
recvcount 个 类 型 为 recvdatatype 的 元 素 ， 并 将 这 些 元 案 存 储 在 recvbuf 数 组 中 从 
i *sendcount 开 始 的 单元 。 所 有 进程 调用 MPI Alltoall 时 ;必须 使 用 同样 值 的 
sendcount、senddatatype、recvcount、recvdatatype 以 及 comm 参 数 。 注 音 ， 
sendcount 和 recvcount 是 发 送 到 每 个 进程 以 及 从 每 个 进程 接收 到 的 元 素数 目 。 

对 于 多 对 多 私自 通信 操作 ，MPI 也 提供 一 个 向 量变 体 MPI_Alltoallv， 它 允许 每 个 进程 
发 送 或 接收 不 同 数 量 的 数据 。 


int MPI Alltoallv(void *sendbuf, int *sendcounts, int *SAispls 
MPI_Datatype senddatatype, void *recvbuf, int *recvcounts, 
int *rdispls, MPI Datatype recvdatatype, MPI Comm comm) 


参数 sendcounts 用 来 指定 发 送 到 每 个 进程 的 元 素数 目 ， 而 参数 sdispls 用 来 指定 这 些 
元 素 佳 sendbuf 中 存储 的 位 置 。 特 别 ， 每 个 进程 发 送 给 进程 sendcounts[i] 个 连续 的 元 
素 ， 从 数组 sendbuf 的 sdqisp1ls[i 1] 单元 开始 。 参数 recvcounts 用 来 指定 每 个 进程 接收 的 
元 素数 日 ， 而 参数 rdispls 用 来 指定 这 些 元 素 存储 在 recvbuf 中 的 位 置 。 特 别 ， 每 个 进程 从 
进程 i 接收 recvcounts[i] 个 元 素 ， 这些 元 素 存储 在 recvbuf 中 连续 的 单元 ， 从 
rdispls[i] 单 元 开始 。 所 有 进程 调用 MPI Alltoallv 了 时 ， 必 须 使 用 同样 值 的 
senddatatype、recvdatatype 以 及 comm 参 数 。 


6.6.8 实例 : 一 维和 矩阵 与 向 量 相 乘 


我 们 第 一 个 使 用 聚合 通信 的 消息 传递 程序 是 将 稠密 上 x n 和 矩阵 4 与 向 量 b 相 乘 ， 即 x = A4b。 
如 8.1 六 中 的 过 论 ， 一 种 并 行 执行 这 种 乘法 的 方法 是 让 每 个 进程 计算 乘积 向 量 * 的 不 同 部 分 。 特 
别 ，p 个 进程 中 的 每 一 个 计算 x 中 n/p 个 连续 的 元 素 。 这 个 算法 可 通过 将 矩阵 4 按 行 分 配 用 MPI 实 
现 ， 每 个 进程 接收 n/p 个 行 ， 与 进程 计算 的 乘积 向 量 x 中 的 部 分 相对 应 。 向 量 b 也 以 与 x 类 似 的 方 
式 分 配 。 

程序 6-4 显 示 按 行 分 配 系 阵 4 的 MPI 程 序 。 和 矩阵 的 维 数 用 参数 n 给 出 ， 参 数 a 和 参数 b 分 别 指 
癌 垂 阵 4 和 向 量 5 中 本 地 存储 的 部 分 ， 而 参数 zx 指向 输出 的 矩阵 与 向 量 乘 积 的 本 地 部 分 。 这 个 程 
序 假设 ?是 处 理 器 数目 的 整数 倍 。 

计算 x 的 另 一 种 方法 是 将 对 x 中 每 个 元 素 进行 点 乘 的 任务 并 行 化 。 也 就 是 说 ， 对 于 向 量 x 中 
的 每 个 元 素 x;， 所 有 进程 都 计算 一 部 分 ， 将 部 分 的 点 乘 结 果 相 加 得 到 最 终结 果 。 这 个 算法 可 通 
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过 将 矩阵 4 按 列 方式 分 配 用 MPI 实 现 。 每 个 进程 得 到 和 矩阵 4 中 mP 个 连续 的 列 ， 以 及 问 量 中 与 
这 些 列 相 对 应 的 元 素 。 此 外 ， 计 算 结束 后 我 们 将 乘积 癌 量 x 按 与 同 量 b 类 似 的 方式 分 配 。 程 序 
6-5 显 示 这 种 按 列 分 配 和 矩阵 的 MPI 程 序 。 

程序 6-4 按 行 的 矩阵 与 向 量 相 乘 


RowMatrixVectorMultiply (int n, double *a, double *b, double *x, 


1 
2 MPI Comm comm) 
3 1{ 
4 int i, 3; ， 
5 int nlocal,; /* Number of locally stored rows of A */ | 
6 double *fb; /* Will point to a buffer that stores the entire Vector b */ 
7 int npes, myrank; 
8 MPI Status status; 
9 
10 /* Get information about the communicator */ 
11 MPI_Comm size (comm, &npes); 
12 MPI Comm rank (comm, &myrank),; 
13 


14 /* Allocate the memory that will store the entire vector b */ 
15 tb = (double *)mallecct(nrsizeoft (Qouble) ) ; 


17 nlocal = n/npes; 


19 /* Gather the entire vector b ort each processor using MPI's ALLGATHER operation */ 
20 MPI Allgather(b, nlocal, MPI DOUBLE, fb, nlocal, MPI DOUBLE, 








21 Comm) : 
22 
23  /* Perform the matrix-vector multiplication involying the locally stored submatrix */ 
24 for (i=0; i<nlocal; i++) { 
25 xfiij = 0.0; 
26 for (j=0; j<n; j++) 
27 x[il += a[i*n+j]*fb[j}; 
28 
29 
30 free (fb),; 
31 } 
程序 6-5 ” 按 列 的 矩阵 与 向 量 相对 
1 ColMatrixVectorMultiply (int n, double *a, double *b,， double 站 并， 
2 | MPI_Comm comm) 
3 
4 int i, j; 
5 int nlocal; 
6 double *px; 
7 double *fx; 
8 int npes, myrank; 
9 MPI_Status status; 


11 /* Get identity and size information from the communicator */ 
12 MPI _ Comm size (comm, &npes); 
13 MPI_ Comm rank (comm, &myrank); 


15 nlocal = n/npes; 
17 /* Allocate memory for arrays storing intermediate results. */ 


18 px = (double *)malloc (n*sizeof (double) ) ， 
19 fx = (double *)malloc (n*sgizeof (double) )， 


20 

21 /* Compute the partial-dot products that correspond to the local columns of A. */ 
22 Eor (is0; 1i<n 1i++) 

23 px[Iil = 0.0; 

24 for (j=0; j<nlocal; j++) 


25 PxX[Til += a[li*nlocal+il*xbiil: 
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26 } 


28 /A* Sum-up the results by performing an element-wise reduction operation */ 
29 MPI Reduce (px, fx, n, MPI DOUBLE, MPI SUM, 0, comm),，; 


31 /A* Redistribute fx in a fashion similar to that of vector b */ 
32 MPI Scattert{fx, nlocal, MPI DOUBLE, x, nlocal, MPI DOUBRLE, 9, 


33 Comm) :; 

34 

35 free (px); free(EXi) ; 
36 


比较 上 面 两 个 矩阵 向 量 相 乘 的 程序 可 以 发 现 ， 按 行 的 程序 只 需要 进行 一 次 
MPI_Allgather 操 作 ， 而 按 列 的 程序 需要 进行 一 次 MPI Reduce 和 MPI scatter 操 作 。 
通常 ， 按 行 序 分 配 更 好 ， 因 为 它 造 成 的 通信 开销 较 小 (见习 题 6.6)。 但 是 ， 在 许多 时 候 ， 程 
序 不 仅 要 计算 4r*， 还 要 计算 47x。 在 这 种 情况 下 ， 按 行 分 配 可 用 来 计算 4x， 但 计算 47x 则 需要 
按 列 分 配 (对 4 的 按 行 分 配 是 4 的 转 置 47 的 按 列 分 配 )。 使 用 按 列 分 配 的 程序 ， 要 比 先 转 置 阜 
阵 再 用 按 行 分 配 的 程序 简便 得 多 。 使 用 全 聚集 (all-gather) 操作 的 对 偶 操 作 ， 就 能 使 使 用 按 
列 分 配 的 程序 与 使 用 按 行 分 配 的 程序 运行 得 一 样 快 (见习 题 6.7)。 但 是 ，MPI 中 没有 提供 这 种 
对 偶 操作 。 


6.6.9 实例 : 单 源 最 短路 径 


我 们 的 第 二 个 使 用 聚合 通信 操作 的 消息 传递 程序 是 计算 图 中 从 源 顶 点 s 到 其 他 所 有 顶点 的 
最 短路 径 ， 程 序 使 用 10.3 节 中 描述 的 Dijkstra 的 单 源 最 短路 径 算法 。 程 序 6-6 为 这 个 程序 的 代 
到 ， 站 

参数 n 存 储 图 中 的 顶点 总 数 ， 参 数 source 存 储 计算 单 源 最 短路 径 的 源 顶 点 ， 参 数 wgt 指 
向 图 的 加 权 邻 接 矩 阵 的 本 地 存储 部 分 。 参 数 lengths 指 向 一 个 向 量 ， 该 向 量 将 用 来 存储 从 源 
顶点 到 本 地 存储 顶点 的 最 短路 径 。 最 后 ， 参 数 comm 是 将 被 MPI 例 行程 序 使 用 的 通信 器 。 注 意 
这 个 例 行 程序 假设 顶点 数目 是 处 理 器 数目 的 整数 倍 。 


程序 6-6 ”Dijkstra 的 单 源 最 短路 径 


SingleSource (int n, int source, int x*wgt, int *lengths, MPI Comm Comem) 


1 
2 
3 int i, jj; 
4 int nlocal; /*The number of vertices stored locally */ 
5 int *marker; /* Used to mark the vertices belonging to Vo */ 
6 int firstvtx; /* The index number of the first vertex that is stored locally */ 
7 int lastvtx; /*The index number of the last vertex that is stored locally */ 
8 int u, udist; 
9 int lminpair [2], gminpair{2],; 
10 int npes, myrank; 
11 MPI Status status; 


13 MPI Comm size{lcomm, énpes); 
14 MPI Comm rank (Comm， &myrank),; 
15 

16 nlocal = n/npes; 

17 firstvtx = myrank*nlocal, 

18 lastvtx = firstvtx+nlocal-1; 
19 


20 /* Set the initial distances from source to all the other vertices */ 
21 for (j=0; j<nlocal; j++) 
22 lengths{[j)] = wgt [source*nlocal + j]; 





24 /* This array is used to indicate if the shortest part to a vertex has been found or not. */ 
25 /* if marker[v] is one, then the shortest path to v has been found, otherwise it has not. */ 


26 marker = (int *})malloc (nlocal*sizeof (int})).; 

27 for (j=0; j<nlocal; j++) 

28 maxzrker []] = 1; 

29 

30 /* The process that stores the source vertex, marks it as being seen */ 

31 if (Source >= firstvtx && source <= lastvtx) 

32 marker [source-firstvtx] = 0; 

33 

34 /* The main loop of Dijkstra's algorithm */ 

35 for (i=1; i<n; i++) 

36 /* Step 1: Find the local vertex that is at the smallest distance from source */ 
37 lminpair[0] = MAXINT; /* set it to an architecture dependent large number */ 
38 lminpair {1] = -1; 

39 for (j=0; j<nlocal; j++) { 

40 if (marker [jj && lengths{j)] < lminpair[0]) { 

41 lminpair{0] = lengths [fj] ; 

42 lminpair[1i] = firstvtx+]j; 

及 3 

44 } 

45 

46 /* Step 2: Compute the global minimum vertex, and insert it into Ve */ 

47 MPI Allreduce (lminpair, gminpair, 1, MPI_ 2INT, MPI MINLOC, 
48 Comm) ; 

49 udist = gminpair [0] ; 

50 uU = gminpair [1]; 

51 

52 /* The process that stores the minimum vertex, marks it as being seen */ 

53 if {uu == lminpair[1]) 

54 marker [u-firstvtx] = 0; 

S55 

56 /* Step 3: Update the distances given that u got inserted */ 

57 for (j=0; j<nlocal,; j++) f{ 

58 if (marker[j] && udist + wgt [uxnlocal+j] < lengths[j}) 
59 Lengths [j] = udist + wgt [u*nlocal+ij]; 

69 

61 } 

62 

63 free (marker),; 

64 





Dijkstra 的 并 行 单 源 最 短路 径 算 法 的 主 计算 循环 要 分 三 步 执行 。 第 一 步 ， 每 个 进程 寻找 V。 
中 本 地 存储 的 与 源 点 距离 最 短 的 顶点 ; 第 二 步 ， 确 定 在 所 有 进程 中 距离 最 短 的 顶点 ， 该 顶点 
包含 在 V. 中 ; 第 三 步 ， 所 有 的 进程 更 新 它们 的 距离 数组 以 反映 出 V. 中 加 入 了 新 的 顶点 。 

第 一 步 的 实现 需要 扫描 V, 中 本 地 存储 的 顶点 ， 并 确定 具有 更 小 lengths[v] 值 的 顶点 v。 计 算 
结果 存储 于 数组 1minpair 中 。 特 别 地 ，iminpair[0] 存 储 顶 点 的 距离 ，iminpair[1] 存 储 顶 点 自身 。 
使 用 这 种 存储 方案 的 原因 在 我 们 考虑 下 一 步 时 就 会 清楚 ， 那 时 必需 计算 所 有 顶点 中 离 源 点 最 
短 的 项 点。 通过 对 存储 在 1minpair[0] 中 的 距离 值 进行 一 次 最 小 归 约 ， 就 能 计算 出 最 短 距离 。 
然而 ， 除 了 求 出 最 短 距 离 外 ， 还 要 求 出 处 于 最 短 距离 的 顶点 。 因 此 ， 最 适合 的 归 约 操作 是 
MPI_MINLOC ， 因 为 它 不 但 返回 最 小 值 ， 还 返回 与 最 小 值 相 对 应 的 下 标 值 。 因 为 
MPI_MINLOC， 我 们 使 用 二 元 素数 组 iminpair 来 存储 距离 以 及 达到 这 个 距离 的 顶点 。 此 外 ， 由 
于 所 有 进程 都 需要 归 约 操作 的 结果 来 进行 第 三 步 ， 我 们 使 用 MPI_&A1Lreduce 来 执行 归 约 操 
作 。 归 约 操 作 的 结果 在 数组 gsmizpatrr 中 返回 。 在 每 次 迭代 中 ， 第 三 步 和 最 后 一 步 通过 扫描 属 
于 儿 的 本 地 顶点 并 更 新 这 些 顶 点 离 源 顶 点 的 最 短 距离 来 实现 。 

避免 负载 不 平衡 ”程序 6-6 分 配 W 的 n/p 个 连续 列 给 每 个 处 理 器 ， 在 每 次 迭代 中 ， 程 序 使 用 
MPI_MINLOC 归 约 操 作 选 出 顶点 v 包 含 到 V. 中 。 对 于 操作 数 (a, i) 和 (a, j)， 回 顾 MPI MINLOC 
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将 返回 下 标 较 小 的 一 个 〈 因 为 两 者 的 值 相同 )。 因 此 ， 对 于 离 源 顶 点 同样 近 的 顶点 ， 这 有 利于 
编号 较 小 的 顶点 。 这 可 能 导致 负载 不 平衡 ， 因 为 存储 在 低 等 级 进程 中 的 顶点 会 比 存储 在 高 等 
级 进程 中 的 顶点 更 快 地 包含 到 V. 中 〈 特 别 当 见 中 的 多 个 顶点 到 源 顶 点 的 最 小 距离 相同 时 )。 因 
此 集合 V, 的 大 小 在 较 高 等 级 的 进程 中 会 较 大 ， 在 整体 运行 时 间 中 占 支配 地 位 。 

改正 这 个 问题 的 一 个 方法 是 ， 将 形 列 核 循 环 的 方式 分 配 。 在 这 种 分 配方 式 中 ， 进 程 ;得 到 
从 顶点 i 开始 的 每 个 第 p 顶 点 。 这 个 方案 也 分 配 n/p 个 顶点 给 每 个 进程 ， 但 是 这 些 进程 的 下 标 跨 
越 几 平整 个 图 。 因 此 ，MPI_MINLOC 有 利于 较 小 编号 的 顶点 不 会 导致 负载 不 平衡 。 


6.6.10 实例 : 样本 排序 


下 面 再 看 最 后 一 个 使 用 聚合 通信 的 程序 ， 将 n 个 元 素 的 序列 4 用 将 在 9.5 节 讲述 的 样本 排序 
算法 进行 排序 。 程 序 6-7 是 该 程序 的 代码 。 

SampleSort 函 数 将 存储 在 每 个 进程 中 的 元 素 序 列 作 为 输入 ， 并 返回 指向 一 个 数组 的 指 
针 ， 该 数组 存储 排序 的 序列 以 及 序列 中 元 素 的 数目 。SampleSort 函 数 的 元 素 是 整 型 的 ， 有 
按 增 序 排序 。 参 数 n 指 定 待 排序 的 元 素 的 总 数目 ; 参数 elmnts 指 定 一 个 指针 ， 指 向 存储 这 些 
元 素 的 本 地 部 分 的 数组 。 返 回 时 ， 参 数 nsorted 将 存储 返回 的 排序 的 数组 中 的 元 素 个 数 。 这 
个 例 行 程序 假设 n 是 进程 数目 的 整数 倍 。 


程序 6-7 样本 排序 


int *SampleSort (Int n, int *elmts, int *nsorted, MPI Comm Comm) 





1 
2 
3 int i, j, nlocal, npes, myrank; 

4 int *Sorted elmts, *splitters, *allpieks, 
5 int *BCOuUrts, *Bdispls, *rcounte, *rdispls; 
6 
7 
8 


/* Get communicator-related information */ 
MPI Comm size {comm, &npes); 


9 MPI Comm rank (comm, &myrank); 
10 
11 nlocal = n/npes; 
12 
13 /* Allocate memory for the arrays that will store the splitters */ 
14 splitters = (int *})malloc (npes*sizeof (int)}); 
15 allpicks = (int *)malloc (npes*{npes-1)*sizeof (int)); 
16 
17 /A* Sort local array */ 
18 dsort (elmnts, nlocal, sizeof (int), IncOrder),， 
19 
20 /* Select local npes-1 equally spaced elements */ 
21 for (i=1l; i<cnpes; i++) 
22 splitters [i-1) = elmnts [i*nlocal /npes]; 
23 


24 /* Gather the samples in the processors */ 
25 MPI Allgather (splitters, npes-1, MPIY INT, allpicks, npes-1, 


26 MPI_INT, comm); 

27 

28 /* sort these samples */ 

29 gsort {allpicks, npes*(npes-1), sizeof (int), IncOrder); 
30 

31 /* Select splitters */ 

32 for (i=1; i<npes; i++) 

33 splitters {i-1] = allpicks [i*npes]),; 

34 splittersinpes-1] = MAXINT,; 

35 

36 /* Compute the number of elements that belong to each bucket */ 
37 Scounts = (int *)malloc (npes*sizeof (int)); 


38 for (i=0; i<cnpes; i++) 
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39 scounts [i] = 0; 

40 

和 41 for (j=i=0; i<nlocal; i++) { 

42 if (elmnts[i] < splitters{j]) 

43 scounts{(j]++; 

44 else 

45 stounts [++j] ++; 

46 

47 l , 
48 /* Determine the starting location of each buckets elements in the elmnts array */ 
49 sdispls = (int *})malloc (npes*sizeof (int)), 

50 sdispls[0] = 0; 

51 for (i=1; i<npes; I++)} 

52 sdispls[i] = sdispls[i-1]+scounts{i-1}).; 

53 


54 /* Perform an all-to-all to inform the corresponding processes of the number of elements */ 
55 /* they are going to receive. This information is stored in rcounts array */ 


56 rcounts = (int *})malloc (npes*sizeof (int) )， 
57 MPI Alltoall (scounts, 1, MPI_INT, rcounts, 1, MPI INT, comm); 
sg8 


59 [人 Based on rcounts determine where in the local array the data from each processor */ 
60 /* will be stored. This array will store the received elements as well as the final */ 
61  /* sorted sequence */ 


652 rdispls = (int *)malloc (npes*sizeof (int)),; 

63 rdispls{0] = 0; 

64 for (i=1; i<npes; i++) 

65 xzdispls[i] = rdispls [i-i}+rcounts [i-1]; 

66 

67 *NnsSorted = rdispls [npes-1]+rcounts [i-1]; 

68 sorted eilmnts = (int *)malloc ( (*naorted)*sizeof (int)); 
69 


70 /* Each process sends and receives the corresponding elements, using the MPI Alltoally */ 
71 /” operation. The arrays scounts and sdispls are used to specify the number of elements */ 
72 必 to be sent and where these elements are stored, respectively. The arrays reounts */ 

73 /* and rdispls are used to specify the number of elements to be received, and where these */ 
74 /* elements will be stored, respectively, */ 

75 MPI Alltoallv (elmts, scounts, sdispls, MPI_INT, gorted elmnts, 


76 rcounts, rAdispls, MPI _ INT，comm) ; 

47 

78 /* Perform the final local sort */ 

79 qsort (Sgorted elmts, *nsorted, sizeof (int), IncOrder); 

80 

81 free (splitters); free (allpicks), free (scounts); free (sdisple); 
82 freelrcounts); free (rdispls),; 

83 

84 return sorted elmnts,; 

85 } 





6.7 进程 组 和 通信 器 


在 许多 并 行程 序 中 ， 通 信 操 作 需 要 限制 在 部 分 进程 中 。MPI 提 供 几 种 方法 将 属于 某 一 通信 
各 的 进程 组 划分 为 子 组 ， 每 个 子 组 都 与 不 同 的 通信 器 相对 应 。 通常 使 用 MPI_Comm_split 函 
数 划分 进程 图 ， 函 数 的 定义 如 下 : : 


int MPI_Comm split (MPI_ Comm comm, int color, int key, 
MPI_ Comm *newcomm) 


此 函数 是 聚合 操作 函数 ， 因 此 必需 由 通信 器 comm 中 的 所 有 进程 调用 。 除 了 通信 器 comm 
外 ， 函 数 还 有 两 个 输入 参数 color 和 key， 并 将 属于 通信 和 器 comm 的 进程 组 划分 成 不 相连 的 子 
组 。 每 个 子 组 包含 对 color 参 数 提供 同样 值 的 所 有 进程 。 在 每 个 子 组 内 部 ， 进 程 按 由 参数 
key 的 值 定义 的 顺序 确定 等 级 ， 与 它们 在 老 的 通信 器 ( 即 comm) 中 进程 等 级 的 划分 相 联系 。 
newcomm 参 数 为 每 个 子 组 返回 一 个 新 的 通信 和 器。 图 6-7 的 例子 展示 用 MPI_Comm split 函 数 
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将 通信 器 分 裂 的 过 程 。 如 果 每 个 进程 都 用 图 6-7 所 示 的 color 和 key 的 参数 值 调 用 MPI_Comm 
_Split， 和 那么 将 创建 3 个 通信 器 ， 分 别 包含 进程 {0, 1,2}、{3,4,5,6} 以 及 {7}。 
进程 0 1 2 4 
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图 6-7 使 用 MPI_Comm_split 将 通信 器 中 的 进程 组 划分 为 子 组 


分 裂 笛 卡 儿 拓扑 结构 ”在 许多 并 行 算法 中 ， 进 程 按 虚拟 网 格 排 列 ， 在 算法 的 不 同步 又 中 ， 
通信 必需 上 限制 在 网 格 的 一 个 不 同 子 集 内 。MPI 提 供 了 一 种 方法 ， 能 方便 地 将 笛 卡 儿 拓 扑 结构 
划分 成 低 维 网 格 的 形式 。 

MPI 提 供 消 数 MPI_Cart_sub， 用 于 将 第 卡 儿 拓扑 结构 划分 成 构成 低 维 网 格 的 子 结构 。 
例如 ， 可 以 将 二 维 结构 划分 成 组 ， 每 个 组 包含 沿 着 该 结构 的 行 或 列 的 进程 。 防 数 
MPI_Cart sub 的 调用 序列 如 下 : 


int MPI Cart sub (MPI Comm comm cart, int *keep_dims, 
MPI Comm *comm subcart) 


数组 keep_dims 用 于 指定 如 何 划分 笛 卡 儿 拓 扑 结构 。 特 别 ， 如 果 keep_dims[i] 为 真 
(在 C 语 言 中 为 0)， 那 么 在 新 的 子 结构 中 ， 第 i 维 保持 不 变 。 例 如 ， 考 虑 一 个 2x 4 x 7 的 三 维 结 
构 。 如 果 keep_dims 的 值 是 {true, false, true})，, 那么 原始 结构 将 分 裂 为 4 个 大 小 为 2x 7 
的 二 维 子 结 构 ， 如 图 6-8a 所 示 。 如 果 keep_ dims 的 值 是 {false, false, true}+， 那 么 原始 
结构 将 分 裂 为 8 个 大 小 为 7 的 一 维 子 结构 ， 如 图 6-8b 所 示 。 注 意 ， 新 创建 的 子 结构 的 数目 等 于 
沿 未 保留 的 各 维 上 的 进程 数目 的 乘积 。 原 始 结构 由 通信 器 comm_cart 指 定 ， 返 回 的 通信 器 
comm_subcart 存 储 创建 的 子 结构 的 信息 。 每 个 进程 只 返回 一 个 通信 和 器， 对 于 不 属于 同一 子 
结构 的 进程 ， 由 返回 的 通信 器 指定 的 组 也 不 同 。 

属于 某 一 给 定子 结构 的 进程 可 用 如 下 方法 确定 : 假设 某 三 维 结构 的 大 小 为 di x 心 x d;, 且 
keep_dims 值 设 定 为 {true, false, true}。 若 进程 用 坐标 (x, y, z) 给 出 ， 则 属于 间 一 子 结 
构 的 进程 组 的 坐标 由 (*, y, *) 给 出 ， 这 里 坐标 位 置 的 “*” 表 示 该 坐标 可 以 取 任 意 可 能 的 值 
同时 注意 ， 由 于 第 二 个 坐标 的 值 可 以 是 d,， 一 共 创建 d; 个 子 结构 。 


keep_dims[0 = {true, false, true} 


|。 
Pt、 









a) 
图 6-8 分 烈 大 小 为 2x 4 x 7 的 第 卡 儿 拓 扑 结构 : a) 分 成 大 小 为 2x 1 x 7 的 
4 个 子 结构 ; b) 分 成 大 小 为 1 x 1 x 7 的 8 个 子 结构 
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keep_dimsll = {false, false, true} 


b) 
图 6-8 ( 续 ) 


由 消 数 MPI_Cart_sub 创 建 的 子 结构 中 的 进程 坐标 也 可 以 通过 原始 结构 中 的 坐标 获得 ， 
无 需 考 虑 与 未 保留 维 对 应 的 坐标 。 例 如 ， 在 基于 列 的 子 结构 中 ， 进 程 的 坐标 等 于 它 在 二 维 结构 
中 的 行 坐标 。 如 坐标 为 (2, 3) 的 进程 ， 在 子 结构 中 有 一 个 坐标 为 (2)， 与 网 格 中 的 第 3 列 对 应 。 


实例 : 二 维和 矩阵 与 向 量 相 乘 


在 6.6.8 节 ， 我 们 提供 了 两 个 程序 ， 计算 对 算 阵 按 行 及 按 列 分 配 时 的 矩阵 与 向 量 相 乘 
x = Ab。 如 8.1.2 节 的 讲述 ， 对 和 矩阵 分 配 还 可 以 使 用 另 一 种 二 维 的 方法 ， 据 此 可 以 得 到 矩阵 与 
向 量 相 乘 算法 二 维 并 行 形式 。 

程序 6-8 说 明 如 何 用 这 些 结构 及 其 划分 来 实现 二 维和 托 阵 与 向 量 相 乘 。 参 数 n 指 定 和 矩阵 的 维 
数 ， 参 数 a 和 参数 b 分 别 指 同和 挎 阵 4 和 问 量 中 本 地 存储 的 部 分 ， 参 数 x 指 向 输出 矩阵 与 向 量 乘 
积 的 本 地 部 分 。 注 意 只 有 沿 着 进程 网 格 第 一 列 的 进程 才 会 在 开始 时 存储 b， 并 在 返回 时 ， 同 样 
的 进程 将 存储 结果 x。 为 了 简化 程序 ， 假 设 进程 数目 p 是 完全 平方 数 ， 且 "是 Vp 的 整数 倍 。 


程序 6-8 二 维和 矩 阵 与 向 量 相 和 对 


MatrixVectorMultiply 2D(int n, double *a, double *b, double *x, 


{ 


MPI Comm comm) 


int ROW=0, COL=1; /* Improve readability */ 

int i, j, nlocal; 

double *px; /* Will store partial dot products */ 

int npes, dims [2], periods (2}, keep dims [2]; 
int myrank, my2drank, mycoords [2]; 

int other rank, coords [2]; 

MPI Status status; 

MPI Comm comm 2d, comm row, comm col; 


/* Get information about the communicator */ 
MPI Comm size (comm, &npes); 
MPI Comm rank (comm, t&myrank)}.; 


/* Compute the size of the Square grid */ 
dims [ROW] = dims [COL] = sqrt (npes); 


nlocal = n/dims [ROW] ; 


/* Allocate memory for the array that will hold the partial dot-products */ 
px = malloc {nlocal*sizeof (double)); 


/* Set up the Cartesian topology and get the rank & coordinates of the process in this topology */ 
periods [ROW] = periods [COL] = 1; /* Set the periods for wrap-around connections */ 





28 MPI Cart create (MPT COMM WORLD, 2, dims, periods, 1, &comm 2d); 


30 MPI Comm rank (comm 2d, &my2drank)}; /* Get my rank in the new topology / 
31 MPI Cart coords (comm 2d, my2drank, 2, mycoords); /* Get my coordinates */ 


33 /* Create the row-based sub-topology */ 

34 keep Gims {ROW] = 0 

35 keep_dims [COL] = 1; 

36 MPI Cart_ sub (comm_ 2d, keep dims, g&comm row) : 


38 /A* Create the column-based sub-topology */ 

39 keep dims [ROW} = 1; 

40 keep dims[COL] = 0; 

41 MPI Cart sub (comm 2d, keep dims, t&comm col); 


43 /* Redistribute the b vector */ 
44 /* Step 1. The processors along the Oth column send their data to the diagonal processors */ 


45 if (mycoords [COL] == 0 && mycoords [ROW] 1= 0) { /*Tm in the first column */ 
46 coords [ROW] = mycoords [ROW]; 

47 coords [COL] = mycoords [ROW] ; 

48 MPI_ Cart rank (comm 2d, coords, &other rank); 

49 MPI_Send(b, nlocal, MPI DOUBRLE, other rank, 1, comm 2d); 
$0 

Sl ift (mycoords {ROW)] == mycoords {COL] && mycoords [ROW] != 0) { 
52 coords [ROW] = mycoords [ROW] ; 

53 coords [COL] = 0; 

S4 MPI_Cart_rank (Comm_2d，coords，&other rank) ; 

55 MPI_Recv{b, nlocal, MPI DOUBLE, other rank, 1, comm 24d, 
56 &Sstatus) ; 

S7 } 

58 


59 /* Step 2. The diagonal processors perform a column-wise broadcast */ 
60 coords [0] = mycoords [CoL] ; 


61 MPI Cart_ rank(comm col, coords, &other rank) ; 

62 MPI_Bcast (b, nlocal, MPI_DOUBLE, other rank, comm col); 
63 

64 /* Get into the main computational loop */ 

65 for (i=0; i<nlocal; I++) { 

66 px[i)] = 0.0; 

67 for (j=0; j<nlocal; j++) 

68 pxfil += ali*nlocal+j] *b [ij]; 

69 . 

70 


71 / Perform the sum-reduction along the rows to add up the partial dot-products */ 
72 coords [0] = 0; 


73 MPI Cart_rank(comm row, coords, &other rank); 

74 MPI Reduce(px, x, nlocal, MPI_ DOUBLE, MPI SUM, other rank, 
75 comm row); 

76 


77 MPI_Comm free{(&comm 2d}; /+* Free up communicator */ 
78 MPI Comm free{&gcomm row); /* Free up communicator */ 


19 MPI_ Comm free(&comm col)}; /+* Free up communicator */ 
80 

81 free (pxX); 

82 } 





6.8 书目 评注 


有 关 MPI 的 最 好 资料 来 源 是 MPI 库 本 身 的 实际 参考 手册 [Mes94]。 在 写 这 本 书 时 ， MPI 标 
瞧 志 有 两 个 主要 版 本 。 第 一 个 版 本 1.0 版 于 1994 年 发 布 ， 其 最 近 的 修订 1.2 版 ， 已 由 绝 大 多 数 硬 
件 供 应 商 实现 。MPI 标 准 的 第 二 个 版 本 2.0 版 [Mes97]， 对 1.x 版 的 许多 方面 进行 了 增强 ， 如 单 
侧 遂 信 、 动 态 进程 创建 以 及 扩展 的 豪 合 操作 等 。 然 而 ， 虽 然 标 准 在 1997 年 就 制定 了 ， 却 没 有 
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广泛 可 用 的 MPI-2 实 现 来 支持 由 标准 指定 的 所 有 特性 。 除 了 上 面 提 到 的 参考 手册 外 ， 许 多 书籍 
也 致力 于 使 用 MPI 的 并 行 编程 [Pac98, GSN1L98, GLS99]。 

除了 由 多 个 硬件 提供 商 提供 的 MPI 实 现 外 ， 许 多 政府 研究 机 构 和 大 学 也 开发 了 多 个 公用 的 
MPI 实 现 ， 其 中 包括 由 Argonne 国 家 实验 室 发 布 的 MPICHIGLDS96, GL96b] (从 http://www- 
unix.mcs.anl.gov/mpi/mpich 可 以 获得 相关 信息 )， 以 及 由 Indianna 大 学 发 布 的 LAM-MPI (在 
http:/www.lam-mpi.org 可 以 获得 相关 信息 )}， 这 些 MPI 实 现 已 得 到 广泛 的 应 用 ， 并 能 移植 到 多 
种 不 同 的 体系 结构 中 。 事 实 上 ， 这 些 MPI 实 现 已 被 用 作 一 些 专门 化 MPI 实 现 的 出 发 点 ， 而 这 些 
专门 化 MPI 实 现 很 适合 用 在 如 千 兆 以 太 网 和 Myrinet 网 等 流行 的 互连网 络 中 。 


习题 


6.1 试 描述 只 由 发 送 进 程 执 行 缓 促 操作 的 有 缓冲 发 送 和 接收 的 消息 传递 协议 。 为 了 使 这 
些 协议 切实 可 行 ， 需 要 什么 样 的 硬件 支持 ? 

6.2 ”无 阻塞 式 通信 操 作 的 优点 之 一 是 它们 能 使 数据 的 传送 与 计算 并 发 进行 。 试 讨论 为 了 
实现 计算 与 通信 的 最 大 重 八 对 程序 进行 重新 组 织 的 类 型 。 发 送 进程 是 不 是 比 接收 进程 更 能 从 

， 这 种 重 琵 中 受益 ? 

6.3 如 6.3.4 节 所 述 ，MPI 标 准 允 许 用 两 种 不 同形 式 的 MPI_Send 操 作 实 现 一 一 一 种 使 用 
有 缓冲 的 发 送 ; 另 一 种 使 用 阻塞 式 发 送 。 试 讨论 MPI 允 许 这 两 种 不 同 实 现 的 潜在 原因 。 特 别 ， 
请 考虑 不 同 的 消息 大 小 及 不 同 的 体系 结构 特点 。 

6.4 考虑 如 图 6- 5 所 示 的 从 16 个 处 理 器 到 4 x 4 二 维 网 格 的 不 同 映射 。 说 明 在 n= VP x Vp 
个 处 理 器 时 ， 四 种 映射 方案 分 别 如 何 映射 。 

6.5 ”考虑 矩阵 与 卸 阵 相 乘 的 Cannon 算 法 。 我 们 讨论 的 Cannon 算 法 中 ， 和 矩阵 4A 和 和 矩阵 8 都 
饿 限制 为 正方 形 朱 了 泗 ， 映 射 到 正方 形 网 格 的 进程 中 。 然 而 ，Cannon 算 法 可 以 扩展 到 A、B 以 及 
进程 网 格 都 不 是 正方 形 的 情形 。 车 矩阵 A 的 大 小 为 n x 上， 矩阵 8 的 大 小 为 kx m，、 则 和 矩阵 4 和 B 相 
乘 得 到 的 和 矩阵 C 的 大 小 为 xn x m。 同 样 ， 设 排列 在 q 行 r 列 的 网 格 中 的 进程 数目 为 g x r。 请 用 
Cannon 算 法 设计 一 个 MPI 程 序 ， 实 现在 g x r 的 进程 网 格 上 ， 将 上 述 的 两 个 矩阵 相 乘 。 

6.6 ” 当 拖 阵 的 维 数 不 是 进程 数目 的 整数 倍 时 ， 说 明 按 行 的 抵 阵 与 向 量 相 乘 的 程序 (程序 
6-4) 需要 修改 才能 正确 运行 

6.7 考虑 按 列 实现 的 矩阵 与 向 量 相 乘 (程序 6-5)。 另 一 种 实现 方法 是 用 MPI Allreduce 
进行 需要 的 妇 约 操作 ， 然后 让 每 个 进程 从 向 量 fx 处 复制 向 量 x 的 本 地 存储 部 分 。 这 种 实现 的 成 
本 是 什么 ?还 有 一 种 实现 方法 是 以 不 同 的 进程 作为 根 ， 执 行 p 个 单 节点 归 约 操作 。 这 种 实现 的 
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成 本 是 什么 ? 
6.8 考虑 6.6.9 节 中 所 述 的 Dijkstra 单 源 最 短路 径 算法 。 说 明 为 什么 加 权 邻 接 矩 阵 的 按 列 序 
分 配 要 优 于 按 行 序 分 配 。 


6.9 ”对 于 gq xy 的 进程 网 格 上 大 小 为 ax m 的 和 矩阵， 说 明 二 维 矩 阵 与 向 量 相 乘 的 程序 (程序 
6-8) 为 什么 需要 修改 才能 正确 执行 。 





第 7 章 ”共享 地 址 空间 平台 的 编程 


显 式 并 行 编程 要 求 指定 并 行 任务 以 及 这 些 任务 间 的 交互 。 这 些 交互 可 能 表现 为 并 发 任务 
的 同步 形式 ， 或 中 间 结 果 的 通信 形式 。 在 共享 地 址 空间 结构 中 ， 由 于 所 有 的 处 理 器 可 以 访问 
部 分 (或 者 全 部 ) 内 存 ， 通信 是 隐 式 指定 的 。 因 此 ， 在 共享 地 址 空间 计算 机 上 的 编程 模式 侧 
重 于 并 发 与 同步 的 构建 ， 以 及 相关 开销 最 小 化 的 技术 等 。 本 章 将 讨论 共享 地 址 空间 的 编程 模 
式 及 其 性 能 问题 ， 以 及 基于 命令 模式 编程 的 扩充 等 . 

在 不 同 的 数据 共享 、 并 发 模型 和 同步 支持 机 制 中 ， 共 享 地 址 空间 编程 模式 可 能 有 所 不 同 。 
在 默认 情况 下 ， 基 于 模型 的 进程 假设 与 一 个 进程 相关 的 所 有 数据 都 是 私有 的 ， 除 非 用 shmget 
和 shmat 这 样 的 UNIX 系 统 调用 进行 另外 说 明 。 虽 然 这 一 点 在 多 用 户 系统 中 对 提供 保护 很 重要 ， 
但 当 用 多 个 并 发 聚集 协作 解决 同一 个 问题 时 是 不 需要 的 。 与 加 强 保护 域 相 关 的 开销 使 得 这 种 


进程 不 大 适用 于 并 行 编程 。 相 反 ， 轻 量 级 进程 及 线程 假设 所 有 的 内 存 都 是 全 局 的 。 通 过 释放 


保护 域 ， 轻 量 级 进程 及 线程 支持 更 快 的 运行 。 因 此 ， 这 是 并 行 编程 的 首选 模型 ， 构 成 本 章 的 
核心 。 通 过 推动 线程 的 创建 和 同步 ， 基 于 命令 的 编程 模型 扩充 线程 模型 。 在 本 章 我 们 对 使 用 
线程 和 并 行 命令 的 编程 进行 多 方面 讨论 。 
7.1 线程 基础 

线程 (thread) 是 程序 流程 中 的 单一 控制 流 。 下 面 用 一 个 简单 的 例子 来 讲述 线程 : 
例 7.1 什么 是 线程 

下 面 的 代码 段 计 算 两 个 大 小 为 n x "的 稠密 矩阵 的 乘积 。 


for {row = 0; YOW < Nn; roOw++) , 
for {columm = 0; column < n; column++) 


] 

2 

3 clrow] [columnj = 

4 dot product (get row(a, row), 
5 get_col (b, col)),， 


在 这 个 代码 段 中 有 严 次 选 代 ， 每 一 次 迭代 都 能 独立 执行 。 这 样 一 种 独立 的 指令 序列 称 为 一 
个 线程 。 在 上 面 的 例子 中 ， 共 有 产 个 线程 ， 每 一 个 对 应 for 循 环 中 的 一 次 迭代 。 由 于 每 个 线程 
能 独立 于 其 他 线程 执行 ， 它 们 可 在 多 处 理 器 中 并 发 调度 。 上 面 的 代码 段 可 以 修改 如 下 : 


} for (row = 0; row “< Nn; row++} 


2 for (column = 0; column < n; column++)} 

3 c [row] [column] = 

4 create thread(dot product (get row(a, row), 

5 get_col{b, col})); 

这 里 ， 我 们 使 用 create_thread 函 数 提供 创建 线程 的 机 制 ， 指 定 一 个 C 语 言 函 数 为 线程 。 这 
样 ， 系 统 就 能 在 多 处 理 器 中 对 线程 进行 调度 。 图 


线程 的 逻辑 内 存 模型 ”要 在 多 处 理 器 中 执行 例 7.1 的 代码 ， 每 个 处 理 器 必须 对 和 捧 阵 a、b、c 
进行 访 间 。 这 是 通过 一 共享 地 址 空间 实现 的 (在 第 2 章 中 讲述 )。 如 图 7-1a 所 示 ， 在 线程 的 轨 
辑 计算 机 模型 中 ， 所 有 内 存 对 于 每 个 线程 是 全 局 可 访问 的 。 然 而 ， 由 于 线程 作为 函数 调用 ， 
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与 函数 调用 相对 应 的 堆栈 通常 被 处 理 成 线程 本 地 的 堆栈 ， 这 也 是 出 于 对 堆栈 活性 的 考虑 。 由 
于 线程 是 在 运行 时 调度 (而 且 任 何 对 线程 执行 的 事先 调度 都 是 不 安全 的 )， 无 法 确定 哪些 堆栈 
是 活 的 。 因 此 ， 只 有 那些 较 差 的 程序 才 将 堆栈 (线程 本 地 变量 ) 当成 全 局 数据 。 这 就 隐 含 如 
图 7-1b 所 示 的 一 个 逻辑 计算 机 模型 ， 模 型 中 的 内 存 模块 村 中 保存 线程 本 地 《分 配 的 堆栈 ) 数 
据 。 

虽然 这 种 逻辑 计算 机 模型 给 出 同等 可 访问 地 址 空间 的 观点 ， 但 是 ， 模 型 的 物理 实现 偏离 
这 个 假设 。 在 像 Origin 2000 这 样 的 分 布 式 共 享 地 址 空间 计算 机 中 ， 物 理 上 访问 本 地 内 存 的 成 
本 要 比 访问 远程 内 存 的 成 本 少 一 个 数量 级 。 即 使 在 所 有 处 理 器 对 内 存 真 正 可 以 同等 访问 的 结 
构 中 (如 有 全 局 共享 内 存 的 共享 总 线 结构 )， 处 理 器 上 高 速 缓存 的 存在 还 是 会 使 内 存 存 取 时 间 
出 现 偏差 。 所 以 ， 内 存 的 本 地 访问 回 题 对 于 在 这 样 的 结构 中 榨取 性 能 是 十 分 重要 的 。 
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图 7-1 基于 线程 的 编程 模式 中 的 逻辑 计算 机 模型 


7.2 为 什么 要 用 线程 


与 消息 传递 编程 模型 相 比 ， 线 程 编程 模型 既 有 显著 的 优点 ， 又 有 -- 些 缺点 。 在 讨论 线程 
API 之 前 ， 先 简单 地 看 一 下 这 些 优 缺点 。 

软件 可 移植 性 线程 应 用 程序 可 以 在 串 行 计算 机 上 开发 ， 并 且 不 作 任 何 改变 地 在 并 行 计算 
机 上 运行 。 这 种 在 不 同 的 结构 平台 上 移植 程序 的 能 力 是 线程 API 的 一 个 非常 重要 的 优点 。 它 的 
意义 不 仅仅 在 于 软件 的 利用 率 上 ， 还 在 于 应 用 程序 的 开发 上 ， 因 为 超级 计算 机 时 间 通 常 既 少 
又 贵 。 

躲避 延迟 ”无论 是 串 行 还 是 并 行程 序 ， 其 最 大 的 开销 之 一 都 是 内 存 存 取 、LO 以 及 通信 方 
面 的 存 取 延迟 ,但 通过 在 同一 处 理 器 上 执行 多 个 线程 , 线程 API 就 能 躲避 延迟 时 间 ( 见 第 2 章 )。 
实际 上 ， 当 一 个 线程 等 待 通信 操作 时 ， 其 他 的 线程 可 以 利用 CPU， 这 样 就 能 屏 项 相应 的 开 
销 。 

调度 及 负载 平衡 在 编写 共享 地 址 空间 并 行程 序 时 ， 程 序 员 要 表现 并 发 就 必须 最 小 化 远程 
区 马 以 及 空 疝 。 虽 然 在 许多 结构 化 的 应 用 程序 中 ， 分 配 同等 的 任务 给 处 理 器 很 容易 实现 ， 但 
在 一 些 非 结 构 化 以 及 动态 的 应 用 程序 (如 游戏 及 离散 优化 ) 中 ， 这 一 点 却 很 难 做 到 。 线 程 API 
允许 程序 员 指定 大 量 的 并 发 任务 ， 并 支持 系统 级 的 从 任务 到 处 理 器 的 动态 映射 ， 以 最 小 化 空 
闲 的 开销 。 通 过 在 系统 级 提供 这 种 支持 ， 线 程 API 使 程序 员 摆脱 显 式 调度 和 平衡 负载 的 负担 。 

容易 编程 ， 广 泛 使 用 ”因为 上 述 优 点 ， 线 程 化 的 程序 要 比 相 应 的 使 用 消息 传递 API 的 程序 
容易 编写 得 多 。 但 是 ， 要 使 这 两 种 程序 达到 同样 的 性 能 还 需要 其 他 方面 的 努力 。 随 着 POSIX 
线程 API 被 广泛 接受 ， 开 发 POSIX 线 程 的 工具 也 越 来 越 多 ， 越 来 越 稳定 。 从 程序 开发 及 软件 工 
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程 的 角度 来 说 ， 这 些 特点 都 很 重要 。 
7.3 POSIX 线 程 API 


许多 供应 商 提供 专用 的 线程 API。IEEE 指 定 一 个 标准 1003.1c-1995，POSIX API。POSIX 
也 称 为 Pthreads ， 已 成 为 标准 的 被 绝 大 多 数 供应 商 支持 的 线程 API。 我 们 将 使 用 Pthreads API 来 
引出 多 线程 的 概念 。 这 些 概念 本 身 在 很 大 程度 上 独立 于 API， 可 以 与 其 他 的 线程 API ( NT 线程 、 
Solaris 线 程 以 及 Java 线 程 等 ) 一 起 用 于 编程 .本章 提出 的 所 有 说 明 性 程序 既 能 在 工作 站 上 运行 ， 
也 能 在 支持 Pthreads 的 并 行 计算 机 上 运行 。 


7.4 线程 基础 : 创建 和 终止 
首先 用 一 个 简单 的 计算 x 值 的 程序 来 开始 我 们 的 讨论 。 
例 7.2 计算 x 的 线程 程序 


这 里 所 用 的 方法 ， 是 基于 在 单位 长 度 的 正方 形 中 产生 随机 数 ， 并 计算 落 在 正方 形 的 
内 接 圆 中 的 点 的 数目 。 由 于 圆 的 面积 (rr?) 等 于 x/4， 正 方形 的 区 域 为 x 1， 落 在 圆 中 的 随 
机 点 的 数目 应 该 接近 /4。 

使 用 线程 计算 r 值 的 一 个 简单 策略 是 : 分 配 固定 数目 的 点 给 每 个 线程 ， 每 个 线程 产生 
这 些 随机 点 并 记录 下 落 在 圆 内 部 的 点 的 数目 。 在 所 有 的 线程 执行 完毕 后 ， 将 所 有 的 点 相 
加 计算 x 的 值 (将 记录 下 的 点 数 总 和 除 以 分 配给 所 有 线程 的 点 ， 再 乘 以 4)。 

要 实现 这 个 线程 程序 ， 需 要 用 一 个 函数 创建 线程 并 等 待 所 有 的 线程 完成 执行 (这 样 
才能 计算 点 数 )。 线 程 可 以 在 Pthreads API 中 用 函数 pthread create 创 建 。 这 个 函数 的 


#include <pthread.hn> 


l 

2 int 

3 pthread create ( 

4 pthread 上 *thread handle, 

3 const pthread attr t *attribute, 

6 void * {(*thread function) (void *), 
7 voida *arg);} 


pthread_create 摧 数 创建 一 个 单一 的 线程 ， 对 应 thread function 函 数 ( 以 及 
任何 其 他 的 由 thread_function 调 用 的 函数 ) 的 调用 。 成 功 地 创建 一 个 线程 后 ， 有 一 
个 唯一 的 标识 符 与 之 对 应 ， 标 识 符 被 分 配 到 由 thread_handle 指 向 的 位 置 。 线 程 的 属 
性 由 参数 attribute 给 出 ， 当 该 参数 为 NULL 时 ， 创 建 一 个 具有 默认 属性 的 线程 。 在 7.6 
方 中 将 详细 讨论 attribute 参 数 。 字 段 arg 指 定 一 个 指针 ， 指 向 函数 
thread_function 的 参数 。 这 个 参数 通常 用 来 将 工作 区 或 其 他 线程 指定 的 数据 传送 给 
一 个 线程 。 在 compute_pi 例 子 中 ， 它 用 来 传送 一 个 当 作 随机 种 子 的 整数 id。 变 量 
thread_handle 要 写 在 负数 pthread _ create 返回 之 前 ; 新 的 线程 一 旦 创建 就 会 立刻 
执行 。 如 果 线 程 在 同一 个 处 理 器 上 调度 ， 新 的 线程 可 能 先 占 其 创建 者 。 这 一 点 非常 重要 ， 
内 为 在 线程 创建 之 前 ， 所 有 的 线程 初始 化 程序 都 必须 完成 。 否 则 ， 就 可 能 出 现 基于 线程 
调度 的 错误 。 这 是 一 类 很 常见 的 错误 ， 由 数据 存 取 时 的 竞争 状态 所 致 、 这 种 竞争 状态 只 
住 某 些 执行 实例 中 会 出 现 。 成 功 地 创建 一 个 线程 后 ， Pthread_create 返 回 0; 否则 返 
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回 一 个 错误 代码 。 有 关 错 误 代 码 详细 内 容 ， 读 者 可 以 参考 Pthread 说 明 书 。 
在 上 面 计 算 r 值 的 程序 中 ， 首 先 读 入 所 需 线程 的 数目 num_threads ， 以 及 所 需 的 样 
本 所 数目 sample_points。 这 些 点 在 线程 间 平 均 分 配 。 程 序 中 使 用 数组 hits 来 分 配 整 
数 id 给 每 个 线程 (这 个 id 被 随机 数 发 生 器 作为 产生 随机 数 的 种 子 )。 同 一 数组 也 被 用 于 记 
录 每 个 线程 返回 前 命中 的 次 数 ( 圆 内 的 点 数 )。 程 序 用 pthread_create 抽 数 创建 
num_threads 个 线程 ， 每 个 线程 都 调用 消 数 compute pi。 
在 每 个 compute_pi 线 程 产生 了 分 配 数 目的 随机 点 并 计算 出 命中 率 后 ， 必 须 将 结果 
结合 起 来 以 确定 xz。 主 程序 必须 等 待 所 有 的 线程 运行 完毕 。 这 一 点 是 通 过 国 数 
pthread_join 实 现 的 ， 它 挂 起 正在 调用 的 线程 ， 直 到 指定 的 线程 终止 。 孙 数 
pthread join 的 原型 如 下 : 
int 
pthread join ( 


] 

2 

3 pthread t thread, 
4 void *w*ptr), 


对 这 个 函数 的 调用 将 等 待 由 thread 给 出 其 id 的 线程 终止 。 在 对 pthread join 的 一 
次 成 功 的 调用 中 ， 传 递 给 pthread_exit 的 值 返 回 到 由 ptzr 指 向 的 位 置 。 在 
pthread_join 调 用 成 功 完成 后 返回 0， 否 则 返回 一 个 错误 代码 。 

所 有 的 线程 结合 后 ， 将 合并 后 的 命中 率 乘 以 4.0 就 得 到 r 的 值 。 完 整 的 程序 代码 如 下 : 


} #include <pthread.h> 

2 #include <stdlib.h> 

3 

4 #define MAX THREADS 512 

5 void *compute pi (void *); 

6 

7 int total hits, total misses, hits [MAX THREADS], 

8 sample points, sample points per thread, num threads,; 
9 

10 main() { 

11 int 工 ; 

12 pthread t p threads [MAX THREADS] ; 

13 pthread attr t attr; 

14 double computed pi,; 

15 double time start, time end; 

16 struct timeval tv, 

17 Struct timezone tz; 

18 

19 pthread attr init (gattr); 

20 pthread attr setscope (&attr,PTHREAD SCOPE SYSTEM), 
21 printf ("Enter number of sample points: *); 

22 SCarnf ("%d", &sample points); 

23 printf ("Enter number of threads: "), 

24 scanf ("$d", gnum threads),; 

25 

26 gettimeofday (&tv, gtz); 

27 time start = (Gouble)tv.tv Sec + 

28 (double}tv.tv usec / 1000000.0; 

29 

30 total hits = 0; 

31 sample points per thread = sample points / num threads; 
32 for (i=0; i< num threads; i++) { 

33 hirs{i} = i; 

34 pthread create (gp threads[i], &attr, compute pi, 
35 (void *) ghits [i]),; 
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37 for (i=0; i< num threads; i++) { 

38 pthread join(p threads[i], NULL); 

39 total hits += hitsl[i]l,; 

40 } 

41 computed pi = 4.0*(double) total hits / 

42 ( (double)} (sample points)); 

43 gettimeofday (&tv, &t2z}).; 

44 time end = {double}tv.tv sec + 

45 (double})tv.tv usec / 1000000.0; 

46 

47 printf ("Computed PI = %lf\n", computed Piy) ; 

48 printf(" %lf\n", time end - time start),; 

49 )} 

50 

51 void *compute pi (void *s) { 

32 int seed, i, *hit pointer,; 

53 double rand no x, rand no y; 

34 int local hitrs,; 

55 

56 hit pointer = (int *) 8s; 

57 Seed = *hit pointer; 

38 local hits = 0; 

59 for (i = 0; i «< sample points per thread; i++) { 
60 rand no x =(double) {rand r(&seed))/ (double) ((2<<14) -1); 
6] rand no y =(double) (rand r(ksgeed))/(qouble) ((2<<14) -1) ; 
62 if (((rand no x - 0.5) * (rand no x - 0.5) + 
63 (rand no y - 0.5) * (rand no y - 0.5)) < 0.25) 
64 local hits ++; 

05 Seed *= 工 ; 

66 } 

607 *hit pointer = local hits, 

68 pthread exit (0) ; 

69 } 


编程 须知 ”读者 必须 注意 ， 在 上 面 的 例子 中 用 到 函数 rand_r( 而 不 是 如 drand48 这 样 更 
好 的 随机 数 产 生 器 )。 这 是 因为 许多 函数 (包括 rand 和 drand48) 都 不 是 可 重 入 的 
(reentrant)。 可 重 入 函数 是 在 调用 过 程 中 当 另 一 个 实例 被 桂 起 后 还 能 安全 地 调用 的 函数 。 容 
务 看 出 为 什么 所 有 线程 函数 必须 是 可 重 人 的 ， 因 为 线程 在 执行 过 程 中 可 能 被 先 占 。 如 果 另 一 


个 线程 在 先 占 的 这 一 点 开始 执行 同一 个 函数 ， 不 可 重信 的 函数 就 可 能 出 现 意 想 不 到 的 情况 。 


性 能 须知 ”我们 在 4 处 理 器 的 SGI Origin 2000 上 执行 这 个 程序 。 线 程 数 的 对 数 与 执行 


时 间 的 关系 曲线 如 图 7-2 所 示 ( 曲线 标记 为 “local”)。 从 图 中 可 以 看 出 ， 使 用 32 个 线程 时 ， 


程序 的 运行 时 间 大 约 比 使 用 单线 程 时 的 时 间 少 3.92 倍 。 在 4 个 处 理 器 的 计算 机 中 ， 它 对 应 


的 并 行 效率 为 0.98。 


图 7-2 中 的 其 他 曲线 解释 一 种 称 为 假 共 享 (false sharing) 的 重要 性 能 开销 。 考 虑 将 程 


序 作 如 下 修改 : 代替 对 本 地 变量 local_hits 加 1 和 分 配 到 在 循环 外 部 的 数组 中 ， 现 在 直 
接 将 hits 数 组 中 对 相应 的 项 加 1。 具 体 做 法 是 把 第 64 行 改 为 *(hit_pointer)++;， 并 
删除 第 67 行 。 容 易 验 证 修改 后 的 程序 与 修改 前 的 程序 在 语义 上 是 完全 相同 的 ， 然 而 ， 执 
行 修改 后 的 程序 在 图 7-2 中 得 到 的 却 是 标记 为 “spaced_1” 的 性 能 曲线 。 这 表示 性 能 非但 
没有 提升 ， 反 而 显著 地 降低 了 ，。 

程序 看 上 去 没有 什么 大 的 改变 ， 但 影响 却 非常 大 ， 这 可 以 用 所 谓 假 共享 的 现象 来 解 
释 。 在 本 例 中 ， 两 个 相 邻 接 的 数据 项 (很 可 能 位 于 同一 高 速 缓 存 行 中 ) 持续 地 被 多 个 线 
程 写 人， 这 些 线程 可 能 在 不 同 的 处 理 器 上 调度 。 从 第 2 章 的 讨论 可 知 ， 向 共享 高 速 缓存 行 
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写 人 将 导致 无 效 操作 ， 随 后 的 读 操作 必须 从 最 近 的 写 操作 位 置 取 高 速 缓存 行 。 由 于 重复 
地 进行 增 1 操 作 ， 与 hits 数 组 相对 应 的 高 速 缓 存 行 将 产生 大 量 的 无 效 操 作 和 读 操作 。 两 
个 线程 “虚假 地 ”共享 数据 因为 数据 正好 位 于 同一 高 速 缓存 行 ， 这 种 情况 称 为 假 共 享 。 


时 间 





线程 数 的 对 数 
图 7-2 compute_pi 程 序 的 执行 时 间 与 线程 数 的 关系 曲线 
286 实际 上 用 这 个 简单 的 例子 可 以 估计 系统 的 高 速 缓存 行 的 大 小 。 将 hits 改 成 二 维 数组 ， 


并 且 只 用 数组 的 第 一 列 来 存储 点 数 。 通 过 改变 第 二 维 的 大 小 ， 就 能 强制 hits 数 组 中 第 一 
列 的 数据 项 放 到 不 同 的 高 速 缓存 行 中 (因为 在 C 语 言 中 ， 数 组 按 行 存储 )。 这 个 实验 的 结 
果 在 图 7-2 中 由 标记 为 “space_16” 和 “space_32” 的 曲线 说 明 ， 这 两 条 曲线 对 应 的 hits 
数组 的 第 二 维 大 小 分 别 为 16 及 32。 从 图 中 很 容易 看 出 ， 当 数据 项 在 空间 上 分 开 时 ， 就 能 
提高 性 能 。 这 一 点 和 我 们 的 理解 是 一 致 的 ， 因 为 将 数据 项 分 开 ， 就 能 使 数据 项 进入 不 同 
的 高 速 缓存 行 ， 从 而 降低 假 共享 的 开销 。 | 


在 理解 如 何 创建 及 连接 线程 后 ， 再 来 研究 Pthreads 中 线程 同步 的 机 制 。 
7.5 Pthreads 中 的 同步 原 语 


虽然 通信 在 共享 地 址 空间 编程 中 是 隐 式 的 ， 但 与 编写 正确 的 线程 程序 相关 的 主要 工作 是 
使 得 与 数据 存 取 或 调度 有 关 的 并 发 线程 同步 。 


7.5.1 共享 变量 的 互 斥 
使 用 pthread_create 和 pthread join 调用 能 创建 并 发 的 任务 。 这 些 任务 共同 操作 
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数据 并 完成 给 定 的 任务 。 当 多 个 线程 试图 操作 同一 数据 项 时 ， 如 果 设 有 采取 适当 的 方法 使 这 
些 线程 同步 ， 结 果 往 往 会 不 一 致 。 考 察 下 面 由 多 线程 执行 的 代码 段 ， 其 中 my_cost 是 线程 本 
地 的 变量 ， 而 best_cost 是 由 所 有 线程 共享 的 全 局 变量 。 


1 /* each thread tries to Update variable best cost as follows */ 
2 if {my cost < best cost) 
3 best cost = my cost; 


为 了 理解 共享 数据 存 取 问 题 ， 先 来 试验 上 面 代码 段 的 一 个 执行 实例 。 假 设 有 两 个 线程 ， 
变量 best_cost 的 初始 值 为 100， 在 线程 t1 和 t2 中 my _cost 的 值 分 别 为 50 和 75。 如 果 两 个 线 
程 并 发 地 执行 i£ 语 旬 中 的 条 件 ， 那 么 两 个 线程 都 会 进入 语句 的 then 部 分 。 依 据 哪 个 线程 首先 
执行 ， 最 终 best_cost 的 值 可 以 是 50， 也 可 以 是 75。 这 里 有 两 个 问题 : 首先 是 结果 的 不 确定 
性 ， 其 次 ， 也 是 更 重要 的 ， 在 两 个 线程 串 行 化 也 不 能 使 变量 best_cost 的 值 为 75 的 情况 下 ， 
这 个 值 是 不 一 致 的 。 这 种 情况 不 是 人 们 希望 看 到 的 ， 有 了 时 也 称 为 竞赛 条 件 (这 样 称呼 是 因为 
计算 的 结果 取决 于 竞争 线程 间 的 竞赛 )。 

上 面 提 到 的 情况 发 生 的 原因 是 ， 前 面 讲 到 的 测试 并 更 新 操作 是 原子 操作 ， 即 不 能 再 分 成 
子 操作 的 操作 。 而 且 ， 代 码 与 一 个 临界 段 对 应 ; 即 在 任何 时 候 ， 该 代码 段 只 能 由 一 个 线程 执 
行 。 在 像 C 语 言 这 样 的 高 级 语言 中 ， 许 多 语句 看 上 去 是 原子 语句 ， 但 事实 上 不 是 ; 例如 ， 语 名 
global_count + = 5 可 能 包含 几 条 汇编 指令 ， 因 此 ， 在 处 理 该 语句 时 一 定 要 小 心 。 

线程 API 用 mutex-lock ( 互 斥 锁 ) 为 实现 临界 段 和 原子 操作 提供 支持 。mutex-lock 有 两 种 
状态 : 锁定 状态 与 非 锁定 状态 。 在 任意 时 刻 ， 只 有 一 个 线程 能 锁定 一 个 互 斥 锁 。 锁 是 原子 操 
作 ， 通 常 与 操作 共享 数据 的 一 段 代 码 有 关 。 要 存 取 共享 数据 ， 线 程 必须 首先 获得 mutex-lock， 
如 采 mutex-lock 已 经 锁定 ， 则 进程 就 不 能 获得 锁 。 这 是 因为 ， 锁 定 和 的 mutex-lock 表 示 另 一 个 线 
程 当 前 处 于 临界 段 ， 不 允许 其 他 任何 线程 进入 。 当 线 程 离 开 临 界 段 后 ， 它 必须 对 mutex-lock 解 
饥 ， 这 样 其 他 的 线程 才能 进入 临界 段 。 在 程序 的 开始 ， 所 有 的 mutex-lock 都 必须 初始 化 为 非 锁 

Pthreads API 提 供 多 个 处 理 mutex-lock 的 函数 。 国 数 Pthzread_ mutex lock 可 用 来 锁定 
mutex-lock。 国 数 的 原型 为 : 

1 int 


2 pthread mutex lock ( 
3 pthread mutex t *mutex lock),; 


对 此 函数 的 调用 试图 锁定 互 斥 锁 mutex-lock (mutex-1lock 的 数据 类 型 预定 义 为 
pthread mutex 鞋 )。 如 果 mutex-lock 已 经 锁定 ， 则 调用 的 线程 阻塞 ; 否则 mutex-lock 被 锁 
定 ， 并 且 调 用 的 线程 返回 。 饥 数 成 功 返 回 时 返回 数值 0。 其 他 的 值 则 表示 死 锁 等 错误 
情况 。 

离开 临界 段 时 ， 线 程 必 须 为 与 mutex-lock 关 联 的 段 解锁 。 否 则 ， 其 他 的 线程 将 不 能 进入 这 
.个 段 ， 通 常会 导致 死 锁 。Pthreads 函 数 pthread mutex unlock 用 来 对 mutex-lock 解 锁 ， 这 
个 负数 的 原型 如 下 : 

1 int 


2 pthread mutex unlock ( 
3 pthread mutex t *mutex lock); 


调用 此 消 数 时 ， 对 于 正常 的 mutex-lock， 锁 被 放弃 ， 阻 塞 的 线程 之 一 被 调度 进入 临界 段 。 
指定 的 线程 由 调度 策略 确定 。 在 7.6 节 讨论 一 些 其 他 类 型 的 锁 (不 同 于 正常 的 锁 )， 以 及 相关 
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的 pthread mutex unlock 国 数 的 语义 。 如 果 程 序 员 试 图 对 已 经 解锁 的 互 斥 锁 或 对 被 另 一 
288| 个 线程 锁定 的 互 斥 锁 ， 进 行 pthread mutex unlock 操 作 ， 其 结果 是 不 确定 的 。 
使 用 互 斥 锁 之 前 ， 还 需要 为 一 个 函数 ， 即 将 互 斥 锁 初始 化 为 未 锁定 状态 的 函数 。 执 行 这 
-- -任务 的 pthreads 国 数 为 pthread_mutex init， 它 的 原型 如 下 : 





| int 

2 pthread mutex init ( 

3 pthread mutex t *mutex lock, 

4 const pthread mutexattr 七  *ilock attr); 


此 遇 数 将 互 斥 锁 mutex_lock 和 初始 化 为 未 锁定 状态 。 互 斥 锁 的 属性 由 参数 lock attr 指 
定 。 如 果 该 参数 设置 为 NULL， 则 函数 将 使 用 互 斥 锁 的 默认 属性 (正常 互 斥 锁 )。 线 程 的 属性 
对 象 在 7.6 节 更 详细 讨论 。 

例 7.3 计算 一 整数 列表 的 最 小 项 

有 了 基本 的 mutex-lock 函 数 后 ， 下 面 来 编写 一 个 简单 的 线程 程序 ， 计 算 一 整数 列表 中 的 最 
小 值 。 整数 列表 在 线程 间 平 等 划分 , 每 个 线程 划分 的 大 小 存储 在 变量 partial 1ist size 中 ， 
指针 1ist_ptr 指 向 每 个 线程 部 分 列表 的 起 始 位 置 ， 并 传递 给 变量 partial _ list_size。 完 
整 的 线程 程序 如 下 : 


#include <pthread.h> 


] 
2 void *find minl(void *1ist ptr); 
3 pthread mutex t minimum value lock; 
4 int minimum value, partial list size; 
5 
6 main() { 
7 /* declare and initialize data structures and list */ 
8 minimum value = MIN INT:; 
9 pthread init () ; 
10 pthread mutex init (gminimum value lock, NULL); 
11 
12 /* initialize lists, list ptr, and partial list size */ 
13 /* Create and join threads here */ 
14 } 
15 
I6 void *find min(void *list ptr) f 
17 int *partial list pointer, my min, i; 
18 my_min = MIN INT, 
19 partial list pointer = (int *) list ptr; 
20 for (i = 0; i < partial list size,; i++) 
21 if (partial list pointer{il < my_ min) 
22 my min = partial list pointer [i],; 
23 /* lock the mutex associated with minimum value and 
24 Update the variable as required */ 
25 pthread mutex lock (gminimum value lock); 
26 if (my_min < minimum value) 
289 27 minimum value = my _ min; 
28 /* and unlock the mutex */ 
29 pthread mutex unlock (gminimum value lock), 
30 pthread exit (0) ; 
31 } 


编程 须知 ”在 本 例 中 ， 对 minimum _Vvalue 的 测试 并 更 新 操作 由 互 斥 锁 minumum value 
一 10ck 保 护 。 线程 执行 pthread mutex _lock 以 获得 对 变量 minumum _Vvalue 的 独占 存 取 。 
从 要 这 次 存 取 获 得 后 ， 数 值 便 按 要 求 更 新 ， 随 后 锁 被 释放 。 由 于 在 任意 时 刻 只 有 一 个 线程 能 
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持 有 -个 锁 ， 也 就 只 有 一 个 线程 能 对 变量 进行 测试 并 更 新 。 辐 


例 7.4 生产 者 -消费 者 工作 队列 

互 斥 锁 的 一 个 常见 的 用 法 是 在 线程 间 建 并 生产 者 -消费 者 关系 。 生 产 者 创建 任务 ， 并 把 它 
们 插入 到 工作 队列 中 。 消 费 者 线程 从 任务 队列 中 取出 任务 并 执行 。 让 我 们 来 考虑 这 种 模式 的 
一 个 简单 情况 ， 其 中 每 个 任务 队列 中 只 能 保存 一 个 任务 (通常 情况 下 ， 工 作 队 列 会 更 长 ， 但 
长 度 是 有 限 的 )。 生 产 者 -消费 者 关系 是 普遍 存在 的 ， 习 题 7.4 是 在 多 媒体 处 理 中 的 一 个 例子 。 
一 个 简单 的 (和 不 正确 的 ) 线程 程序 里 ， 生 产 者 线程 创建 任务 ， 并 将 任务 放 到 共享 的 数据 结 
构 中 ， 而 消费 者 线程 从 共享 数据 结构 中 取出 任务 ， 并 执行 任务 。 但 是 ， 这 种 简单 的 程序 并 没 
有 考虑 如 下 可 能 性 : 

。 当 前 面 一 个 任务 没有 被 消费 者 线程 取出 时 ， 生 产 者 线程 一 定 不 能 覆盖 共享 缓冲 区 。 

* 在 共享 数据 结构 非 空 之 前 ， 消 费 者 线程 一 定 不 能 取出 任务 。 

* 每 一 个 消费 者 线程 一 次 只 能 取出 一 个 任务 。 

为 了 实施 ， 我 们 可 以 用 变量 task_available。 如 果 这 个 变量 为 0， 则 消费 者 线程 必须 
等 待 ， 但 生产 者 线程 可 以 把 任务 插入 到 共享 数据 结构 task_queue 中 。 如 果 
task_available 为 1!， 则 生产 者 线程 必须 等 待 ， 不 能 马上 将 任务 插入 共享 数据 结构 中 ， 但 
消费 者 线程 之 一 可 以 取出 已 有 的 任务 。 所 有 这 些 对 变量 task_available 的 操作 必须 由 
mutex_lock 保 护 ， 以 保证 只 有 一 个 线程 对 它 执行 油 试 并 更 新 。 这 个 程序 的 线程 版 本 如 下 : 


pthread mutex t task queue lock; 
int task available; 


/* other shared data structures here */ 


main() { 
/* declarations and initializations */ 
task available = 0; 
pthread init(); 
10 pthread mutex init (gtask queue lock, NULL), 
11 /* create and join producer and consumer threads */ 


OPA 


i2 } 

13 

14 void *producer{(void *producer thread data) { 

15 int inserted; 

16 struct task my task; 

17 while (!done()) f 

18 ingserted = 0; 

19 create task (gmy task); 

20 while (inserted == 0) 1{ 

21 pthread mutex lock(gtask queue lock) ; 
22 if (task available == 0) 

23 insert into queue (my task),; 

24 task available = 1; 

25 inserted = 1; 

26 } 

27 . pthread mutex unlock (gtask queue lock); 
28 } 

29 } 

30 } 

31 


32 void *consumer (void *consumer thread data) { 
33 int extracted.; 


所 
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34 struct task my task; 

35 /* local data structure declarations */ 

36 while (ldone()) { 

37 extracted = 0; 

38 while {extracted == 0) { 

39 pthread mutex lock{(&task queue lock); 
40 if (task available == 1) { 

41 . extract from Gueue (&my task),; 

42 task available = 0; 

43 extracted = 1; 

44 } 

45 pthread mutex unlock (&task Gueue lock); 
46 } 

47 process task{my task); 


48 
49 } 


编程 须知 ”在 本 例 中 ， 生 产 者 线程 创建 一 个 任务 ， 并 等 待 队 列 中 的 空间 。 这 一 点 由 变量 
task_available 为 0 指示 。 对 这 个 变量 的 测试 并 更 新 ， 以 及 向 共享 队列 插入 任务 和 从 共享 
队列 中 取出 任务 ， 都 由 互 斥 锁 task_queue_Lock 保 护 。 一 旦 任务 队列 中 的 空间 可 用 ， 则 最 
近 创建 的 任务 就 插入 到 任务 队列 中 ， 于 是 变量 task_available 被 设置 为 1， 说 明 有 任务 可 
用 。 在 生产 者 线程 中 ， 变 量 inserted 设 置 为 1， 表 示 最 近 创 建 的 任务 已 被 插入 队列 ， 这 样 
生产 者 就 可 以 产生 下 一 个 任务 。 无 论 最 近 创建 的 任务 是 否 成 功 地 插入 到 队列 中 ， 锁 都 会 被 解 
除 。 这 样 消费 者 线程 在 队列 中 有 任务 的 情况 下 就 能 从 队列 中 获取 任务 。 如 果 锁 没有 被 解除 ， 
线程 就 会 死 锁 ， 这 是 因为 消费 者 线程 无 法 得 到 锁 来 获取 任务 ， 生 产 者 也 不 能 将 任务 插入 到 任 
务 队列 中 。 消 费 者 线程 等 待 任务 变 成 可 用 的 并 在 可 用 时 执行 它 。 如 像 生 产 者 线程 那样 ， 在 
while 循 环 的 每 一 次 迭代 中 ， 消 费 者 都 要 解除 锁 ， 使 生产 者 在 队列 为 空 的 情况 下 将 任务 插入 
到 队列 中 。 国 


1. 锁 开 销 

锁 表 示 串 行 化 的 点 ， 因 为 临界 段 必 须 由 线程 一 个 接 一 个 地 执行 。 将 大 段 程 序 封装 在 锁 中 
会 导致 性 能 下 降 。 最 小 化 临界 段 的 大 小 很 重要 。 例 如 在 上 面 的 例子 中 ， 国 数 create task 
和 process_task 处 于 临界 段 之 外 , 但 insert into queue 和 extract from queue 
负数 处 于 临界 段 之 内 。 前 者 在 临界 段 之 外 是 为 了 使 临界 段 尽 可 能 地 小 ， 而 insert_into queue 
和 extract_from_queue 国 数 处 于 临界 段 之 中 ， 是 因为 如 果 锁 在 更 新 task available 后 
被 解除 ， 但 没有 插入 或 获取 任务 ， 当 其 他 的 线程 正在 进行 插入 或 获取 时 就 可 能 获得 对 共享 数 
据 结构 的 访问 ， 这 样 就 会 导致 错误 。 因 此 ， 一定 要 非常 小 心地 处 理 临 界 段 和 共享 数据 结构 ， 
以 避免 这 种 错误 发 生 。 

2. 减 小 锁 开 销 

用 为 一 个 函数 pthread_mutex_trylock 可 以 减少 与 锁 相 关 的 空间 开销 。 这 个 函数 试 
图 锁定 mutex_lock。 如 果 锁 定 成 功 ， 函 数 返 回 0; 如 果 锁 已 被 其 他 的 线程 锁定 ， 畏 数 返 回 一 
个 值 EBUSY 而 不 是 阻塞 线程 操作 。 这 样 就 能 使 线程 执行 其 他 的 任务 ， 并 轮 询 互 斥 锁 。 此 外 ， 
任 典 型 的 系统 中 ， 通 常 pthread mutex _trylock 要 比 pthread mutex lock 快 得 多 ， 
因为 它 无 需 处 理 当 多 个 线程 等 待 锁 时 与 锁 有 关 的 队列 。 函 数 pthread mutex_trylock 的 
原型 如 下 : 
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] int 


2 pthread mutex trylock ( 


3 


pthread mutex t *mutex lock); 


我 们 用 下面 的 例子 来 说 明 这 个 函数 的 用 法 : 
例 7.5 找 出 一 个 列表 中 * 个 匹配 的 数 
本 例 从 给 定 的 列表 中 找 出 k 个 与 查询 项 匹配 的 数 。 列 表 在 所 有 线程 间 同 等 划分 。 假 设 列表 


有 npn 项 ， 有 PP 个 


线程 ， 每 个 线程 负责 查找 列表 的 n/p 项 。 使 用 pthread mutex trylock 国 


数 求解 的 程序 段 如 下 : 


void *find entries(void *start pointer) { 


l 
2 
3 
4 
5 
6 
7 
8 
9 
10 
1 
12 
13 
14 int 
15 
16 
17 
18 
19 
20 
21 
22 
23 


这 个 程序 段 从 数据 库 的 一 部 分 中 找到 一 项 ， 更 新 全 局 计数 器 ， 然 后 再 找 下 一 项 。 如 果 一 


/* This is the thread function */ 


struct database record *next record; 

int count; 

Current pointer = start pointer; 

do { 
next_ record = find next _entry (current pointer); 
count = Output_ recorad (next record); 

} while (count < requested number of records); 


output_ record(struct database record *record ptr) { 
int count.; 

pthread mutex lock (goutput count lock), 

output count ++; 

count = output count.; 

pthread mutex unlock(&output count lock); 


it (count <= requested number of records) 
print record(record ptr); 
return (count); 


个 锁定 -更 新 计数 -解锁 循环 所 需 的 时 间 为 1 ， 找 到 一 个 匹配 数 的 时 间 为 ， 那 么 总 的 查找 时 间 
就 是 (11 + 25) x nwmar ， 其 中 nwas 是 任 一 线程 找到 的 最 大 匹配 数目 。 如 果 #1 与 pb 相当， 那么 锁 将 导致 


可 观 的 开销 。 


用 pthread_mutex_try1lock 国 数 能 减少 锁 开销 。 每 个 线程 现在 寻找 下 一 项 ， 并 试图 
得 到 钢 并 更 新 计数 。 如 果 另 一 个 线程 已 经 得 到 了 锁 ， 则 把 记录 插入 本 地 列表 中 ， 而 线程 能 继 
续 查 找 其 他 匹配 的 数 。 当 线程 最 终 得 到 锁 时 ， 就 把 到 目前 为 止 在 本 地 找到 的 所 有 项 插入 到 列 
表 中 (只 要 这 个 数目 不 超过 所 需要 的 数目 )。 相 应 的 output_record 函 数 如 下 : 


int 


1 
2 
3 
4 
5 
6 
7 
8 


DD 


output_record (struct database_ record *record ptr) { 
int count; 
int lock_status; 
lock status = pthread mutex _trylock (&output count lock),; 
if (lock_ status == EBUSY) { 
insert into local _list (record ptr); 
return(0),; 


else f 
count = output count,; 
output_count += number on local list + 1; 
pthread mutex unlock(&output count lock) ; 
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位 


13 print records (record ptr, local list, 
14 requested number of records - count),; 
15 return(count + number on local list + 1); 


16 } 
17 } 


编程 须知 ”认真 研究 这 个 函数 发 现 ， 如 果 更 新 全 局 计数 的 锁 不 可 用 ， 则 函数 将 当前 记录 插 
入 到 -一 个 本 地 列表 中 并 返回 ; 如果 锁 可 用 ， 则 先 将 本 地 列表 中 的 记录 数目 加 到 全 局 计数 中 ， 并 
于 加 1《 代 表 当 前 记录 )。 然 后 再 解除 相关 的 锁 ， 并 用 函数 print_records 打 印 要 求 的 记录 。 

性 能 须知 这 个 版 本 代码 比 前 面 的 代码 的 执行 时 间 短 , 原因 有 两 点 : 第 一 , 前 面 也 已 提 到 ， 
执行 Pthread_mutex_trylIock 的 时 间 通 常 比 执行 pthread_mutex_ lock 的 时 间 少 得 多 。 
第 .-， 由 于 每 个 锁 可 能 有 多 个 记录 插入 ， 锁 操作 的 数目 也 碱 少 了 。 实 际 查找 的 记录 数目 (经 
过 所 有 线程 ) 可 能 要 比 真正 需要 的 记录 数目 上 略微 大 一 点 (因为 在 本 地 列表 中 可 能 有 的 项 永远 
不 会 被 打印 )。 然 而 ， 由 于 这 个 时 间 原 本 该 是 花 在 锁 空 亲 上 的 ， 这 种 开销 不 会 造成 性 能 降低 。 

上 血 的 例子 说 明 用 函数 pthread_mutex_trylock 而 不 用 pthread_mutex lock 的 
原 内 。 通 常 pthread_mutex_trylock 邱 数 用 来 减少 与 互 斥 锁 相关 的 空 闪 开 销 。 如 果 计 算 
中 临界 段 可 以 被 延迟 ， 其 他 的 计算 可 以 在 这 个 间 积 期 进行 ， 那么 pthread_mutex 
trylock 将 是 选择 的 函数 。 另 一 个 前 面 也 曾 提 到 过 的 关键 因素 是 ， 对 于 绝 大 多 数 的 实现 而 言 ， 
汪 数 pthread_mutex_trylock 比 函数 pthread mutex lock 开 销 更 小 。 事实 上 ， 对 于 
饥 度 优化 的 代码 ， 即 使 需要 使 用 函数 pthread_mutex_lock， 通常 也 需要 在 循环 内 部 使 用 
的 数 Pthread_mutex_trylock， 因 为 如 果 在 最 初 的 几 次 调用 中 获得 了 锁 ， 使 用 
pthread mutex_trylock 也 会 比 pthread mutex Lock 开 销 小 。 国 


7.5.2 用 于 同步 的 条 件 变量 


如 上 一 节 提 到 的 ， 不 加 区 别 地 使 用 锁 可 能 导致 由 阻塞 线程 引起 的 空闲 开销 。 虽 然 函 数 
pthread_mutex_trylock 减 少 这 种 开销 ， 却 带 来 对 可 用 锁 轮 询 的 开销 。 例 如 ， 如 果 重 写 
生产 者 -消费 者 的 例子 用 函数 pthread_mutex_trylock 而 不 用 pthread mutex lock， 
那么 生产 者 和 消费 者 就 必须 周期 性 地 轮 询 锁 的 可 用 性 (以 及 随后 的 缓冲 区 空间 或 队列 中 任务 
的 可 用 性 )。 解 决 此 问题 的 一 个 自然 方法 是 ， 中 止 生产 者 的 执行 ， 直 到 空间 变 为 可 用 (使 用 中 
断 驱 动机 制 而 不 是 轮 询 机 制 )。 空间 的 可 用 性 由 消费 任务 的 消费 者 线程 给 出 信和 号。 实现 该 功能 
要 使 用 条 件 变量 (condition variable ) 。r 

条件 变量 是 用 来 同步 线程 的 数据 对 象 。 这 个 变量 允许 某 一 线程 阻塞 自己 ， 直到 指定 的 数 
据 到 达 预 定 的 状态 。 在 生产 者 -消费 者 例子 中 ， 对 消费 者 线程 给 出 信和 号 前 ， 共享 变量 
task_available 必 须 变 成 1。 布 尔 条 件 task available = = 1 称 为 一 个 谓词 ， 某 一 条 件 
变量 与 这 个 谓词 对 应 。 如 果 谓 词 为 真 ， 条 件 变量 就 用 来 给 出 信号 表示 一 个 或 多 个 等 待 条 件 的 
线程 。 一 个 条 件 变量 可 与 多 个 谓词 对 应 。 但 是 ， 由 于 这 样 会 造成 程序 难以 排 错 ， 强 烈 建议 不 
要 这 样 做 。 

一 个 条 件 变 量 总 是 有 一 个 互 斥 锁 与 之 对 应 。 一 个 线程 锁定 这 个 互 斥 锁 并 测试 对 共享 变量 
(人 在 这 种 情况 下 对 task_available) 定义 的 谓词 ， 如 果 谓 词 非 真 ， 则 线程 等 待 与 使 用 函数 
pthread_conqd_wait 的 谓词 相关 的 条 件 变 量 。 这 个 函数 的 原型 如 下 : 


] int pthread cond wait (pthread cond 上 *cond, 
2 pthread mutex t *mutex),; 





对 此 函数 的 调用 阻塞 线程 的 执行 ， 直 至 线程 收 到 来 自 另 一 个 线程 的 信号 或 者 被 一 个 操作 
系统 的 信号 中 断 。 除 了 阻塞 线程 外 ， 国 数 Pthread_cond_wait 解 除 对 互 斥 锁 的 锁定 。 这 一 
点 非常 重要 ， 和 否则 设 有 其 他 线程 能 够 对 共享 变量 task_available 进 行 操 作 ， 且 谓词 永远 不 
会 满足 。 当 线程 在 得 到 信号 被 释放 后 ， 在 恢复 执行 前 等 待 重新 获得 互 斥 锁 。 把 每 个 条 件 变 量 
想象 成 与 -个 队列 联系 是 方便 的 。 执行 对 变量 条 件 等 待 的 线程 放弃 它们 的 锁 并 进入 队列 。 当 
条 件 发 出 信号 〈 使 用 函数 Pthreaqd_cond_sign) 时 ， 队列 中 的 线程 之 一 便 解除 阻塞 ， 并 在 
互 斥 饥 变 为 可 用 时 ， 它 就 被 送 给 这 个 线程 (线程 变 成 可 运行 的 )。 

在 上 面 的 生产 者 -消费 者 例子 中 ， 生 产 者 线程 产生 任务 ， 由 于 对 互 斥 锁 的 锁定 已 被 放弃 
(通过 等 待 消费 者 )， 和 生产 者 线程 能 够 将 任务 插入 到 队列 中 ， 并 在 锁定 互 斥 锁 后 置 
task_available 为 1。 由 于 谓词 得 到 满足 ， 生 产 者 必须 通过 发 出 信号 来 唤醒 消费 者 线程 之 
一 。 这 是 用 图 数 Pthread_cond_signal 实 现 的 ， 图 数 的 原型 如 下 : 


1 int pthread cond signal (pthread cond t *cond); 


国 数 至 少 对 当前 等 待 条 件 变量 cond 的 一 个 线程 解除 阻塞 。 然 后 生产 者 通过 显 式 调用 函数 
pthread_mutex_unlock 放 弃 对 互 斥 锁 的 锁定 ， 使 被 阻塞 的 消费 者 线程 之 一 消费 任务 。 

企 用 条 件 变 量 重 写生 产 者 -消费 者 例子 前 ， 需 要 介绍 两 个 初始 化 及 消除 条 件 变量 的 函数 调 
用 ,分别 为 pthread_cond init 及 pthread cond destzroy。 这 两 个 国 数 调 用 的 原型 如 
下 : | 

1 int pthread cond init (pthread cond t *cond, 


const pthread condattr 七 *attr),; 
3 int pthread cond destroy (pthread cond t *cond); 


图 数 Pthread_cond_init 初 始 化 一 个 条 件 变 量 (由 cond 指 向 )， 其 属性 由 属性 对 象 
attr 定 义 。 将 attr 置 为 NULL 对 条 件 变 量 赋予 默认 的 属性 。 如 果 在 程序 的 某 处 ， 条 件 变 量 不 
再 是 需要 的 ， 可 以 用 函数 Pthread_cond_destroy 将 它 废弃 。 有 了 这 两 个 处 理 条 件 变 量 的 
图 数 ， 就 可 以 重 写生 产 者 -消费 者 程序 段 如 下 : 


例 7.6 使 用 条 件 变量 的 生产 者 -消费 者 程序 


条 件 变 量 在 工作 队列 满 时 ， 可 用 来 阻塞 生产 者 线程 的 执行 ， 而 在 工作 队列 为 空 时 ， 可 用 
来 阻塞 消费 者 线程 的 执行 。 两 个 条 件 变 量 cond_queue_empty 和 cond _queue_ full 分 别 
用 来 指定 空 和 满 的 队列 。 与 cond _queue_empty 相 关 的 谓词 为 task available = = 
与 cond_ queue_full 相 关 的 谓词 为 ask available==1。 

生产 者 队列 锁定 与 共享 变量 task_available 对 应 的 互 斥 锁 task_queue cond_ 
lock。 它 检查 task_available 是 否 为 0 ( 即 队 列 为 空 )。 如 果 为 空 ， 生 产 者 就 将 任务 插入 
到 工作 队列 中 ， 并 通过 给 出 条 件 变 量 cond queue ful11 的 信号 唤醒 所 有 等 待 的 消费 者 线程 。 
然后 继续 创建 其 他 的 任务 。 如 果 task_available 为 1 ( 即 队列 是 满 的 )， 生 产 者 对 条 件 变 量 
cond_qdueue_empty 执 行 条 件 等 待 ( 即 等 待 队列 变 空 ) 。 此 时 ， 不 难看 出 隐 式 解除 对 
task_queue_cond_lock 的 锁定 的 原因 。 如 果 没 有 解除 锁定 ， 所 有 的 消费 者 都 不 能 消费 任 
务 ， 队 列 永远 也 不 会 变 空 。 此 时 ， 生 产 者 线程 被 阻塞 。 由 于 消费 者 可 获得 锁 ， 消 费 者 线程 可 
以 消 费 任务 ， 并 在 任务 从 工作 队列 除去 时 给 出 条 件 变量 cond queue_ empty 的 信号 。 

带 费 者 线程 锁定 互 斥 锁 task_queue cond lock， 检查 共享 变量 task available 
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是 否 为 1。 如 果 不 是 ， 它 就 执行 对 cond_queue_ful1 的 条 件 等 待 。( 注 意 ， 信 号 征 在 任务 播 
入 到 工作 队列 时 从 生产 者 处 产生 的 。) 如 果 有 任务 可 用 ， 消 费 者 将 任务 从 工作 队列 中 取出 并 发 
送信 号 给 生产 者 。 以 这 种 方式 ， 生 产 者 和 消费 者 线程 通过 彼此 发 信号 进行 操作 。 不 难看 出 ， 
这 种 操作 方式 与 基于 中 断 的 操作 类 似 ， 但 不 同 于 Pthread_mutex_trylock 基 于 轮 询 的 操 
作 。 完 成 这 种 生产 者 -消费 者 行为 的 程序 段 如 下 : 


pthread cond + cond queue empty, cond queue full; 


l 

2 pthread mutex t task queue cond lock.; 

3 int task available.; 

4 

5 /* other data structures here w/ 

6 

7 main() { 

8 /* declarations and initializations */ 

9 task available = 0; 

10 pthread init{(); 

il pthread cond init (&cond queue empty, NULL); 

12 pthread cond init(&cond queue full, NULL).; 

13 pthread mutex init(&task queue cond lock, NULL),; 
14 /* create and join producer and consumer threads */ 
15 | . 

16 

17 void *producer (void *producer thread data) { 

18 int inserted， 

19 while (tdone()) { 

20 create 七 aSK () ; 

21 pthread mutex lock(&task queue cond lock); 
22 while (task available == 1) 

23 pthread_ cond wait (&cond queue empty, 
24 &task queue cond lock),， 

25 ingert into queue{(),， 

26 task available = 1; 

27 pthread cond signal (&cond queue full),; 

28 pthread mutex unlock (&task queue cond 1ock) ; 
29 } 

30 |} 

31 

32 void *consumer (void *consumer thread data) { 

33 while (ldone()) { 

34 pthread mutex lock(&task queue cond lock); 
35 while (task available =: 0) 

36 pthread_ cond wait(&cond queue full, 

37 &task queue cond lock),， 

38 my_task = extract from queue () : 

39 task available = 0; 

40 pthread cond signal (gcond queue empty); 

41 Pthread_mutex_unlock (&task_ queue cond lock),; 
42 process task (my task) ; 

43 } 

44 | 


编程 须知 在 这 个 代码 段 中 ， 有 一 点 要 特别 注意 : 对 与 条 件 变量 相关 的 谓词 的 检查 是 在 特 
环 内 进行 的 。 可 能 有 人 会 认为 ， 当 cond_queue ful1 被 断定 时 ， task available 的 值 
必定 为 1。 但 是 ， 对 条 件 的 检查 最 好 在 循环 内 进行 ， 因 为 线程 可 能 会 由 于 其 他 的 原因 (如 OS 
信号 ) 被 唤醒 。 在 其 他 情况 下 ， 如 果 条 件 变量 通过 条 件 广播 发 出 信号 (对 所 有 等 待 的 线程 发 
出 信号 而 不 只 是 对 一 个 线程 ) ， 较 早 得 到 锁 的 线程 就 会 使 条 件 无 效 。 当 有 多 个 生产 者 及 消费 者 
时 ， 一 个 队列 中 可 用 的 任务 可 能 要 被 其 他 的 消费 者 之 一 消费 。 





性 能 须知 ” 当 线 程 执行 条 件 等 待 时 ， 它 将 自己 从 可 运行 列表 中 移 走 一 一 因此 ， 在 它 唤醒 前 
不 会 使 用 CPU 周 期 。 这 一 点 与 互 斥 锁 相反 ， 互 斥 锁 在 轮 询 锁 时 要 消耗 CPU 周 期 。 国 


在 上 和 面 的 例子 中 ， 每 个 任务 只 能 被 一 个 消费 者 线程 消费 。 因 此 ， 我 们 每 次 选择 问 一 个 阻 
塞 的 线程 发 信号 。 在 某 些 其 他 的 计算 中 ， 唤 醒 所 有 等 待 条 件 变量 的 线程 而 不 是 单个 线程 可 能 
会 有 利 。 这 一 点 可 以 通过 函数 pthread cond broadcast 实 现 。 


] int pthread cond broadcast (pthread cond t *cond); 


这 样 做 的 一 个 例 了 是 在 生产 痢 - 消费 者 程序 中 ， 工 作 队 列 很 大 ， 在 每 个 插入 周期 都 有 多 个 
任务 要 插入 到 工作 队列 。 这 一 问题 留 给 读者 作为 习题 (习题 7.2)。 使 用 函数 
pthread cond _ broadcast 的 另 一 个 例子 是 7.8.2 节 所 述 的 实现 障碍 。 

在 条 件 等 待 时 设置 超时 通常 是 很 有 用 的 。 使 用 函数 pthread_cond timedwait， 线程 
就 能 执行 等 待 条 件 变量 ， 直 至 指定 的 时 间 届 满 。 此 时 ， 如 果 线 程 没有 收 到 信号 或 广播 ， 就 会 
被 自己 唤醒 。 这 个 了 范 数 的 原型 为 : 


i int pthread cond timedwait (pthread cond t *cond， 
2 pthread mutex t *mutex, 
3 const struct timespec *abstime); 


如 果 在 收 到 信号 或 广播 前 ， 指 定 的 绝对 时 间 abstime 届 满 ， 函 数 返 回 一 个 出 错 信 息 。 当 
羡 数 成 为 可 用 时 ， 它 也 会 重新 获得 互 斥 锁 。 


7.6 控制 线程 及 同步 的 属性 


到 目前 为 止 的 讨论 中 ， 我 们 发 现 ， 像 线程 及 同步 变量 这 样 的 实体 通常 都 与 几 种 属性 有 关 。 
例如 ， 不 同 线程 的 调度 方式 可 能 也 不 同 (如 循环 调度 、 优 先 调 度 ， 等 等 ) ， 堆 栈 的 大 小 可 能 也 
不 一 样 ， 等 等 。 同 样 ， 像 互 斥 锁 这 样 的 同步 变量 也 可 能 有 多 种 不 同 的 类 型 。 Pthreads API 人 允许 
程序 员 用 属性 对 象 (attribute object) 改变 实体 的 默认 属性 。 

属性 对 象 是 一 个 数据 结构 ， 用 来 描述 实体 (线程 、 互 斥 锁 、 条 件 变 量 ) 的 性 质 。 在 创建 
线程 或 同步 变量 时 ， 可 以 指定 决定 实体 性 质 的 属性 对 象 。 一 旦 创建 ， 线 程 或 同步 变量 的 性 质 
就 大 体 上 固定 了 (Pthreads 允 许 用 户 改 变 线程 的 优先 权 )， 以 后 对 属性 对 象 的 修改 不 能 改变 先 
于 用 属性 对 象 创建 的 实体 的 性 质 。 使 用 属性 对 象 的 好 处 有 : 第 一 ， 它 将 程序 语义 与 实现 分 开 。 


线程 的 性 质 由 用 户 指定 。 这 些 性 质 在 系统 层次 如 何 实现 对 于 用 户 来 说 是 透明 的 。 这 样 就 能 使 


程序 在 不 同 操作 系统 间 有 更 大 的 可 移植 性 。 第 二 ， 使 用 属性 对 象 增强 程序 的 模块 性 及 可 读 性 。 
第 三 ， 它 使 程序 员 修改 程序 更 容易 。 比 如 ， 如 果 用 户 想 对 所 有 线程 的 调度 从 循环 调度 形式 改 
为 时 间 片 调度 形式 ， 他 们 只 需 改变 属性 对 象 中 的 指定 属性 。 

要 创建 具备 要 求 性 质 的 属性 对 象 ， 首 先 必须 创建 带 有 默认 性 质 的 对 象 ， 然 后 按 要 求 修改 
对 象 。 下 面 我 们 考查 为 线程 和 同步 变量 完成 属性 对 象 创建 的 Pthreads 函 数 。 


7.6.1 线程 的 属性 对 象 
汪 数 pthread_attr init 用 来 创建 线程 的 属性 对 象 。、 此 函数 的 原型 如 下 : 


i! int 
2 Ppthread attr init ( 
3 pthread attr 七 *attr); 


to 
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这 个 冰 数 用 默认 值 初 始 化 属性 对 象 attz 。 初 始 化 成 功 后 ， 国 数 返 回 0， 否 则 返回 一 个 错 
误 代 码 。 属 性 对 象 可 用 限 数 pthread attr destroy 了 取消， 这 个 痕 数 的 原型 如 下 : 

1 in 

2 pthread attr destroy ( 

3 pthread attr t  *attr),; 


成 功 地 取消 属性 对 象 attr 后 ， 函 数 的 调用 返回 0。 与 属性 对 象 有 关 的 各 个 性 质 可 用 如 下 
的 的 数 修改 : pthread _attr setdetachstate, pthread attr setguardsize_ 
np, pthread attr setstacksize, pthread attr setinheritsched, 
pthread attr setschedpolicy 和 pthread attr setschedparam。 这 些 图 数 分 别 
用 来 设置 线程 属性 对 象 的 分 离 状态 、 堆 栈 保护 大 小 、 堆 栈 大 小 、 调 度 策略 是 否 从 创建 线程 继 
承 、 调 度 策略 (在 未 继承 的 情况 下 ) 以 及 调度 参数 。 读 者 可 以 参考 Pthreads 手 册 了 解 这 些 函 数 
的 详细 描述 。 对 于 绝 大 多 数 并 行程 序 而 言 ， 通 常 默认 的 线程 性 质 就 够 用 了 。 


7.6.2 互 斥 锁 的 属性 对 象 


类 型 由 锁 属 性 决定 ， 到 目前 为 止 的 例子 中 用 到 的 互 尺 锁 称 为 正常 斥 (normal mutex )。 这 
是 一 种 默认 类 型 的 锁 。 在 任意 时 刻 ， 只 允许 一 个 线程 锁定 互 斥 锁 。 如 果 获 得 锁 的 线程 试图 再 
一 次 锁定 它 ， 则 第 二 次 锁定 调用 将 导致 死 锁 。 

考虑 下 面 在 二 叉 树 中 搜索 元 素 的 线程 例子 。 为 了 保证 在 搜索 过 程 中 其 他 的 线程 不 改变 树 ， 
线程 使 用 一 个 互 斥 锁 tree_lock 锁 定 树 。 搜 索 函 数 如 下 : 


1 search tree (void *tree ptr) 


2 1 

3 struct node *node pointer; 

4 node pointer = (struct node *) tree ptr; 

5 pthread mutex lock (&tree lock) ; 

6 if {is_search node (node pointer) == 1) { 

7 /* Solution is found here */ 

8 Print node (node pointer); 

9 pthread mutex unlock (&tree lock) ; 

10 return(1),; 

j 1 } 

12 else { 

13 if {tree ptr -> left != NULL) 

14 Search tree((void *) tree ptr -> left), 
15 if (tree ptr -> right != NULL) 

16 Search tree( (void *) tree ptr -> Light) ; 
17 } 

18 printf ("Search uneuccessful\n"), 

19 pthread_mutex unlock (gtree lock) :; 

20 } 


如 果 tree_lock 是 正常 互 斥 锁 ， 则 第 一 个 对 函数 search_tree 的 递归 调用 将 导致 死 锁 ， 
因为 已 获 得 锁 的 线程 试图 锁定 一 个 互 斥 锁 。 为 了 解决 这 个 问题 ，Pthreads API 支 持 一 种 递归 互 
太 锁 (recursive mutex )。 递 归 互 斥 锁 允 许 单一 的 线程 多 次 锁定 互 斥 锁 。 线 程 每 次 锁定 一 个 互 
不 锁 时 ， 锁 计数 器 加 1 ， 每 次 解锁 计数 器 碱 1。 如 果 其 他 任何 线程 想 成 功 锁定 一 个 递归 互 斥 锁 ， 
锁 计 数 器 必须 为 0 ( 即 每 一 个 被 其 他 线程 的 锁定 必须 有 一 个 对 应 的 解锁 )。 当 线程 纯 数 需要 递 
目地 调用 自己 时 ， 就 要 用 到 递归 互 斥 锁 。 

除了 正常 及 递归 互 斥 锁 以 外 ，Pthreads API 还 支持 第 三 种 互 斥 锁 ， 称 为 错误 检查 互 斥 锁 





(errorcheck mutex )。 错 误 检 查 互 斥 锁 的 操作 与 正常 互 斥 锁 相 似 一 一 一 个 线程 只 能 锁定 一 个 互 
环 锁 -次 。 然 而 ， 与 正常 互 不 锁 不 同 ， 当 线程 试图 锁定 一 个 已 经 锁定 的 互 斥 锁 时 ， 错 误 检 查 
正 不 锁 将 返回 一 个 错误 而 不 是 死 锁 。 因 此 ， 错 误 检 查 互 斥 锁 在 排 错时 更 有 用 。 
”五 后 锁 的 类 型 可 用 互 斥 锁 属 性 对 象 来 指定 。 为 了 对 默认 值 创 建 和 初始 化 一 个 互 斥 锁 属 性 
对 纱 ，Pthreads 提 供 肖 数 pthread mutexattr init。 这 个 函数 的 原型 如 下 : 

! int 


2 pthread mutexattr init ( 
3 pthread mutexattr 七 *attr); 


这 个 国 数 创建 并 初始 化 一 个 互 斥 锁 属性 对 象 att+* ， 互 斥 锁 的 默认 类 型 为 正常 互 斥 锁 。 
Pthreads 提 供 函 数 Ppthread_mutexattr_settype_np 用 来 设置 由 互 斥 锁 属 性 对 象 指 定 的 
类 型 。 这 个 图 数 的 原型 如 下 : 


int. 


1 

2 pthread mtexattr settype np ( 

3 pthread mutexattr + *attr, 
4 int type); 


这 里 , type 指定 互 斥 锁 的 类 型 ， 与 正常 、 递 妇 和 错误 检查 这 三 种 互 斥 锁 的 类 型 相对 应 ， 
它 可 以 取 下 述 值 : 

° PTHREAD MUTEX NORMAL NP 

* PTHREAD MUTEX _RECURSIVE NP 

* PTHREAD MUTEX ERRORCHECK NP 

用 函数 pthread_attr_destroy 可 以 取消 互 斥 锁 属性 对 象 ， 苹 数 以 互 斥 锁 属 性 对 象 
attr 作 为 唯一 参数 。 


7.7 线程 注销 


考虑 在 象棋 比赛 中 用 来 对 一 系列 位 置 进行 估 值 的 一 个 简单 程序 。 假 设 有 x 次 移动 ， 每 次 移 
动 由 一 个 独立 的 线程 估 值 。 如 果 在 任意 时 刻 ， 某 一 位 置 确立 具有 某 个 品质 ， 那 么 对 其 他 已 知 
品质 差 的 位 置 必须 停止 估 值 。 换 句 话说 ， 对 相应 棋盘 位 置 进行 佑 值 的 线程 必须 被 注销 。 
POSIX 线 程 用 孙 数 pthread_cancel 提 供 线 程 注销 功能 。 这 个 函数 的 原型 如 下 : 


1 int 
2 pthread cancel ! 
3 pthread t+ thread); 


这 里 ，thread 是 要 被 和 福 销 线程 的 句柄 。 一 个 线程 可 以 注销 自己 ， 也 可 以 注销 其 他 线程 。 
调用 此 函数 后 ， 注 销 就 发 送 给 指定 的 线程 ， 但 不 能 保证 指定 的 线程 一 定 会 收 到 注销 ， 也 不 能 
保证 指定 的 线程 执行 注销 。 线 程 可 以 保护 自己 不 被 注销 。 当 真正 执行 注销 时 ， 调 用 清理 函数 
恢复 线程 数据 结构 。 这 一 过 程 与 调用 函数 pthread_exit 终 止 线程 类 似 。 对 线程 的 注销 独立 
十 发 送 原 来 注销 请 求 的 线程 。 函 数 pthread_cancel 在 注销 发 送 后 返回 ， 而 注销 操作 可 能 推 
迟 执 行 。 注 销 成 功 时 返回 0， 但 并 不 代表 请 求 的 线程 已 被 注销 ; 这 仅 说 明 指定 的 线程 是 有 效 的 


7.6 复合 同步 结构 
虽然 Pthreads API 提 供 了 一 系列 基本 的 同步 结构 ， 但 是 经 常 需要 更 高 层次 的 结构 。 这 些 较 高 
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层次 的 结构 可 以 用 基本 同步 结构 来 构造 。 在 本 市 中 ， 将 考查 这 些 结构 以 及 它们 的 性 能 和 应 用 。 
7.8.1 读 - 写 锁 


企 许多 应 用 程序 中 ， 某 一 数据 结构 会 被 频繁 地 读 出 ， 但 很 少 写 人 。 对 于 这 种 情况 ， 多 读 
可 以 在 不 带 来 任何 一 致 性 问题 的 情况 下 进行 。 然 而 ， 写 必须 被 串 行 化 。 这 就 引出 了 另 一 种 结 
构 一 一 读 写 锁 。 正 在 读 共享 数据 项 的 线程 获得 对 变量 的 读 出 锁 ， 如 果 其 他 线程 已 经 有 了 读 出 
锁 ， 则 读 出 锁 就 被 授与 。 如 果 存 在 对 数据 的 写 人 锁 (或 者 有 排队 的 写 人 锁 )， 线 程 将 执行 条 件 
等 待 。 同 样 ， 如 果 有 多 个 线程 请 求 写 入 锁 ， 这 些 线程 也 必须 执行 条 件 等 待 。 我 们 使 用 这 些 原 
则 设计 读 出 锁 图 数 my1ib_rwlock_rlock、 写 人 锁国 数 my1L1ib rwlock wlock 以 及 解锁 
图 数 my1ib rwlock unlock。 

所 述 的 读 - 写 锁 基 于 一 种 称 为 ny1ib_rwlock_t 的 数据 结构 。 这 种 结构 含有 读 出 者 的 数 
量 、 写 人 者 (0/1 整数 表示 写 人 者 是 否 存 在 )、 读 出 者 能 进行 时 发 出 的 条 件 变量 readers 
Proceed 信 号 、 写 人 者 能 进行 时 发 出 的 条 件 变量 writer_proceed 信 和 号、 挂 起 的 写 人 者 计 
数 器 pending_writes 以 及 与 共享 数据 结构 相对 应 的 互 斥 锁 read_write lock。 函 数 
mylib_rwlock_init 用 来 对 这 个 数据 结构 的 不 同 分 量 进行 初始 化 。 

的 数 myl1ib_rwlock_rlock 试 图 对 数据 结构 加 上 读 出 锁 。 它 检查 是 否 有 写 人 锁 或 挂 起 
的 写 入 者 。 如 果 有 ， 就 执行 对 条 件 变量 readers_proceed 的 条 件 等 待 ， 否 则 读 出 者 计数 器 
加 1， 并 授与 一 个 读 出 锁 。 函 数 mylib_rwlock_wlock 试 图 对 数据 结构 加 上 写 入 锁 。 它 检查 
是 否 有 读 出 者 或 写 人 者 ; 如 果 有 ， 挂 起 的 写 人 者 计数 器 加 1， 并 执行 对 条 件 变 量 writer 
proceed 的 等 待 。 如 果 没 有 读 出 者 或 写 人 者 ， 就 授予 一 个 写 和 人 锁 并 继续 ， 

负数 my1ib_rwlock_un1lock 解 除 读 出 锁 或 写 人 锁 。 它 检查 是 否 存 在 写 入 锁 ， 如 果 有 ， 
该 函数 就 会 通过 设置 writer 的 字段 为 0 为 数据 结构 解锁 。 如 果 有 读 出 者 存在 ， 读 出 者 
readers 的 数量 减 1。 如 果 没 有 剩余 的 读 出 者 ， 但 有 挂 起 的 写 和 信者， 国 数 发 出 写 人 者 之 一 继 
续 的 信号 (通过 发 出 writer_proceed 信 号 )。 如 果 没 有 挂 起 的 写 人 者 ， 但 有 挂 起 的 读 出 者 ， 
则 国 数 发 出 所 有 读 出 者 线程 继续 的 信号 。 初 始 化 和 锁定 /解锁 的 代码 如 下 : 





1 typedef Btruct { 

2 int readers; 

3 int wzILEer : 

4 pthread cond t readers proceed; 
5 pthread cond t writer proceed; 

6 int pending writers; 

7 pthread mtex t read write lock; 
8 } mylib rwlock t; 


10 

ll void mylib_rwlock_init (mylib rwlock t *1) { 

12 1 -> readers = 1 -> writer = 1 -> pending writers = 0; 
13 pthread mutex init (&(l1 -> read write lock}, NULL); 

14 pthread cond init(&(l -> readers proceed), NULL)',， 

15 pthread cond init(&(l -> writer proceed), NULL); 

16 } 


18 void mylib rwlock rlock (mylib rwlock t *1) { 
19 /* if there ie a write lock or pending writers, perform condition 
20 wait.. else increment count of readers and grant read lock */ 
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22 pthread mutex lock(&(l] -> read write lock)),; 

23 while ((1 -> pending writers > 0) || (1 -> writer > 0)) 
24 pthread cond wait (&(l1 -> readers proceed), 

25 &(1 -> read write lock)}); 

26 1 -> readers ++; 

27 pthread mutex unlock{&(l1 -> read write lock)),; 

28 } 

29 

30 

31 void mylib rwlock wlock (mylib rwlock t *1) { 
32 /* if there are readers or writers, increment pending writers 
33 count and wait. On being woken, decrement pending writers 
34 count and increment writer count */ 

35 

36 pthread mutex lock(&(] -> read write lock)),; 

37 while ((1 -> writer > 0) || (1 -> readers > 0)) { 

38 1 -> pending writers ++; 

39 pthread cond wait(&(1 -> writer proceed), 

40 &(1 -> read write lock)); 

41 } 

42 1 -> pending writers --: 

43 1 -> writer ++ 

44 pthread mutex unlock(g(l -> read write lock)}; 

45 } 

46 

47 

48 void mylib_rwilock unlock (mylib rwlock t *1) { 

49 /* if there is a write lock then unlock, else if there are 
S50 read locks, decrement count of read locks. If the count 
41 is 0 and there is a pending writer, let it through, else 
52 if there are pending readers, let them all go through */ 
53 

54 pthread mutex lock(&g(l -> read write lock)); 

55 it (1 -> writer > 0) 

$6 1] -> writer = 0; 

57 else if (1 -> readers > 0) 

58 1 -> readere --: 

50 pthread mutex unlock{&k(l} -> read write lock) ) ; 

60 if ((1 -> readers == 0) && (1 -> Pending writers > 0)) 
61 pthread cond signal(&(1I -> writer proceed) ) ; 

62 else if (1 -> readers > 0) 

63 pthread cond broadcast (&(1 -> readers proceed)); 

64 | 


下 面 用 一 些 例子 说 明 读 - 写 锁 的 用 法 。 
例 7.7 用 读 - 写 锁 计算 一 个 数字 列表 中 的 最 小 数 

计算 一 个 数字 列表 中 的 最 小 值 是 读 - 写 锁 的 一 个 简单 应 用 。 在 前 面 的 实现 中 ， 一 个 锁 与 最 
小 值 相关 。 所 有 线程 在 需要 的 时 候 锁定 并 更 新 最 小 值 。 通 常 ， 检 查 最 小 值 的 次 数 要 大 于 最 小 


值 更 新 的 次 数 。 因 此 ， 好 的 方法 是 用 读 出 锁 允 许多 次 读 ， 只 在 需要 时 在 写 入 锁 后 写 入 。 相 应 
的 程序 段 如 下 : 


void *find min rw{(void *list ptr) { 


] 

2 int *partial -list_pointer, my min, i; 

3 my_min = MIN_INT; 

4 partial list pointer = (int *) list ptr; 

5 for (i = 0; i.< partial list size; i++) 

6 if {partial list pointer{i] < my_min) 

7 my_min = partial ligst pointerfil]; 

8 /* lock the mutex associated with minimum value ana 
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9 update the variable as required */ 

10 mylib rwlock riock{(gread write lock), 

1 if (my min < minimum value) { 

12 mYJLiID_rwlock_unlock (&read write lock), 
13 mylib rwlock wlock (gread write lock); 
14 minimum value = my_min; 

15 

16 /* and unlock the mutex */ 

17 mylib rwlock unlock (gread write lock); 

18 ‘pthread exit (0); 

19 } 


编程 须知 在 本 例 中 ， 每 个 线程 计算 自己 部 分 列表 中 的 最 小 元 素 。 然 后 试图 对 与 全 局 最 小 
值 对 应 的 锁 加 上 读 出 锁 。 如 果 全 局 最 小 值 大 于 本 地 最 小 值 (这 样 就 需要 一 次 更 新 )， 则 放弃 读 
出 锁 ， 寻 找 写 入 锁 。 一 旦 获得 写 入 锁 ， 就 能 更 新 全 局 最 小 值 。 从 读 -- 写 锁 得 到 的 性 能 增益 受 线 
程 数量 及 所 需 更 新 ( 写 人 锁 ) 数量 的 影响 。 在 极端 的 情况 下 ， 全 局 最 小 值 中 的 第 一 个 值 也 是 
真 止 的 最 小 值 ， 就 不 用 再 寻找 写 人 锁 。 此 时 ， 这 种 使 用 读 - 写 锁 的 版 本 的 程序 性 能 较 好 。 相 反 ， 
如 朱 每 个 线程 必须 更 新 全 局 最 小 值 ， 就 会 有 过 多 的 读 出 锁 ， 增 加 程序 的 开销 。 图 


例 7.8 用 读 - 写 锁 实现 散 列表 


在 从 数据 库 查 询 到 状态 空间 搜索 这 样 的 应 用 程序 中 ， 一 个 常见 的 操作 是 从 数据 库 中 搜索 
一 个 关键 码 ， 数 据 库 按 散 列表 组 织 。 在 本 例 中 ， 假 设 通过 将 冲突 的 项 链接 成 链表 来 处 理 冲 突 。 
每 个 链表 有 一 个 锁 与 之 对 应 。 锁 保证 不 会 在 同时 对 链表 更 新 和 查找 。 这 里 我 们 考虑 两 种 程序 
版 本 : 一 种 使 用 互 斥 锁 ， 另 一 种 使 用 本 节 中 介绍 的 读 - 写 锁 。 

使 用 互 斥 锁 的 程序 版 本 将 关键 码 散 列 到 表 中 ， 锁 定 与 表 索 引 对 应 的 互 斥 锁 ， 并 在 链表 中 
进行 搜索 /更 新 。 实 现 这 个 操作 的 线程 函数 如 下 : 


1 manipulate hash tablel(lint entry) { 
int table index, found; 


3 struct list entry *node, *new node; 

4 

5 table index = hash(entry); 

6 pthread mutex lock(&hash table[table index] .liet lock),; 
了 found = 0; 

8 node = hash table[table index] .next,; 

9 while ((node != NULL) && (!found})) { 

10 if {node -> value == entry) 

ll found = 1; 

12 elBse 

13 node = node -> next; 

14 } 

15 pthread mutex_ unlock (&hash tableltable index] .list lock),; 
16 if (found) 

17 return (1); 

18 else 

19 insert_ into hash table (entry); 

20 } 


这 早 ， 兵 数 insert_into_hash_table 在 进行 实际 插入 前 必须 锁定 hash table 
[table_index] .1list_lock。 当 在 散 列表 中 发 现 大 部 分 查询 时 ( 即 它们 不 需要 被 插入 )， 
这 些 搜 索 就 会 被 捉 行 化 。 容 易 看 出 ， 可 以 安全 地 允许 多 个 线程 搜索 散 列表 ， 只 有 对 表 的 更 
新 必须 被 串 行 化 。 这 样 就 能 用 读 - 写 锁 来 实现 。 函 数 manipulate hash table 可 以 重 写 
如 下 : 





manipulate hash table (int entry) 


] 

2 

3 int table index, found; 

4 struct list entry *node, *new node; 
5 

6 table index = hash (entry); 

7 mylib rwlock rlock(&hash table[table index] .list lock); 
8 found = 0; 

9 node = hash tableltable index] .next ; 
10 while ((node != NULL) && (!found})) { 
11 if (node -> value == entry) 

12 found = 1; 

i3 else 

14 node = node -> next,; 

15 } 

16 mylib rwlock rlock (ghash table[table index] .list lock); 
17 if (foung) 

18 return (1); 

19 else 

20 insert into hash table (entry); 
21 )} 


这 里 ， 畏 数 ijnsert_into_hash_table 在 进行 实际 插入 前 必须 得 到 hash table 
[table index] .list lock 的 写 和 人 锁 。 

编程 须知 ”在 这 个 例子 中 ,假设 1iist_1lock 字 段 已 被 定义 为 类 型 mylib_rwlock_t， 
并 且 所 有 与 散 列 表 相 关 的 读 -~ 写 锁 已 用 函数 mylib_rwlock_init 初 始 化 。 与 使 用 互 斥 锁 相 
比 ， 使 用 my1lib_rwlock_rlock 人 允许 多 个 线程 并 发 地 搜索 各 自 的 数据 项 。 这 样 的 话 ， 如 果 


成 功 的 搜索 次 数 超过 插入 次 数 ， 就 能 得 到 很 好 的 性 能 。 注 意 ， 函 数 insert_into_hash_ 


table 必 须 做 适当 的 修改 才能 使 用 写 入 锁 (而 不 是 如 像 前 面 的 互 斥 锁 )。 国 


弄 清 使 用 读 - 写 锁 优 于 使 用 正常 锁 的 情况 是 很 重要 的 。 由 于 在 写 人 时 ， 读 - 写 锁 与 正常 互 
斥 锁 相 比 没有 优势 ， 只 在 有 大 量 的 读 出 操作 时 使 用 读 ~ 写 锁 才 有 利 。 此 外 ， 当 临界 段 变 大 时 ， 
使 用 读 - 写 锁 的 优势 更 大 。 这 是 因为 ， 由 正常 互 斥 锁 导 致 的 串 行 化 开销 比较 高 。 最 后 ， 由 于 
读 - 写 锁 依 赖 条 件 变量 ， 支 撑 的 线程 系统 必须 提供 快速 条 件 等 待 、 发 信号 以 及 广播 函数 。 通 过 
对 读 - 写 锁 做 一 个 简单 的 分 析 ， 可 以 了 解 使 用 读 - 写 锁 的 优点 (习题 7.7 )。 


7.8.2 障碍 


企 线程 化 程序 (以 及 其 他 的 并 行程 序 ) 中 ，barrier (障碍 ) 是 重要 且 经 常用 到 的 结构 。 
用 障碍 调用 挂 起 一 个 线程 ， 直 至 其 他 所 有 加 入 障碍 的 线程 到 达 障 碍 。 障 碍 可 以 用 计数 器 、 互 
斥 锁 以 及 条 件 变量 实现 。( 障 得 也 可 以 只 使 用 互 斥 锁 实现 ， 然 而 ， 这 样 的 实现 会 引起 繁忙 等 待 
的 开销 。) 一 个 整数 (计数 器 ) 用 于 记录 到 达 障 碍 的 线程 数目 ， 如 果 计 数 小 于 线程 总 数 自 ， 线 
程 执 行 条 件 等 待 。 最 后 进入 的 线程 (将 计数 器 设置 为 线程 数目 ) 使 用 条 件 广播 唤醒 所 有 的 线 
程 。 完 成 这 个 过 程 的 代码 如 下 : 


typedef struct 1 
pthread mutex t count lock; 
pthread cond t ok to proceed; 
int count, 

} mylib barrier t; 


oJ 


vold mylib init barrier (mylib barrier 上 *b) { 
. b -> count = 0; 
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9 pthread mutex_init(&(b -> count lock), NULL), 

10 pthread cond init(&(b -> ok to proceed), NULL); 

ll } 

12 

13 void mylib barrier (mylib barrier t *b, int num threads) { 
14 pthread mutex lock(&(b -> count lock)).; 

15 b -> count ++; 

16 if (b -> count == num threads) { 

17 b -> Count = 0; 

18 pthread cond broadcast (&(b -> ok to proceed)); 
19 } 

20 else 

21 while {pthread cond wait{&k(b -> ok to proceed), 
22 &(b -> count lock)) != 0); 

23 pthread mutex unlock(&(b -> count lock)); 

24 |!} 


在 上 面 的 障碍 实现 中 ， 线 程 进入 障碍 ， 直 至 广播 信号 释放 线程 。 线 程 逐个 地 被 释放 ， 因 
为 互 斥 锁 count_1lock 在 线程 间 逐 个 地 传递 。 因 此 ， 对 于 n 个 线程 ， 这 个 函数 的 执行 时 间 下 界 
为 非常 小 的 O(n)。 用 多 个 障碍 变量 可 加 速 这 种 障碍 实现 。 

下 面 考虑 另 一 种 障碍 实现 方法 : 用 mw2 对 条 件 变 量 - 互 斥 锁 来 实现 "个 线程 的 障碍 。 障 碍 工 
作 如 下 : 首先 ， 线 程 配 成 对 ， 每 对 线程 共享 一 个 条 件 变 量 - 互 斥 锁 对 ， 指 定 的 对 成 员 等 待 两 个 
线程 以 成 对 障碍 的 方式 到 达 。 一 旦 这 种 情况 发 生 ， 所 有 指定 的 成 员 就 被 组 织 成 对 ， 这 一 过 程 
一 直 进 行 到 只 有 一 个 线程 时 才 结 束 。 此 时 ， 所 有 的 线程 都 已 到 达 障 碍 点 。 我 们 必须 在 这 时 释 
放 所 有 的 线程 。 不 过 ， 释 放 它 们 需要 发 出 所 有 n/2 个 条 件 变量 信和 号。 完成 这 项 工作 我 们 同样 采 
用 层次 策略 。 线 程 对 中 指定 的 线程 发 送 各 自 的 条 件 变量 信和 号 。 


typedef struct barrier node { 
pthread mutex t count lock; 
pthread_ congd t ok to proceed up; 
pthread cond 上 ok to_proceed down; 
int count; 

} mylib barrier t internal; 


typedef struct barrier node mylog_ logbarrier t [MAX THREADS]，; 
pthread t p threads [MAX THREADS]; 
10 pthread attr t attr; 


OO 上 lw 一 


i2 void mylib init barrier (mylog logbarrier t b) { 


13 int i; 

14 for (i = 0; i < MAX THREADS; i++) 1 

15 b [ij.count = 0; 

16 PLhread_rmmutex_initt&(b[ri] .count lock), NULL); 

17 pthread cond init (&(b[i] .ok to proceed up), NULL); 

18 pthread cond init{(g&(b[i] .ok to proceed down), NULL), 
19 } 

20 } 

21 . 
22 void mylib logbarrier (mylog_ logbarrier t b, int num threads, 
23 int thread id) { 

24 int i, base, index; 

25 i = 2; 

26 base = 0; 

27 

28 do f{ 

29 index = base + thread id / i; 

30 if (thread id % i == 0) f 


31 pthread mutex_lock (&(b [indqex] .count lock)); 
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32 b[index] .count ++; 

33 while (plindex] .count < 2) 

34 pthread cond wait (&(b[lindex] .ok to proceed up), 
35 & (blindex) .count lock))., 

36 pthread mutex unlock(&(blindex] .count lock)),; 
37 } 

38 else { 

39 pthread mutex lockl(&(blindex] .count lock)); 

40 blindex} .count ++; 

41 if (blindex] .count == 2) 

42 pthread cond signal(& (blindex] .ok to proceed up)); 
43 while (pthread cond wait (&(b [index] .ok to proceed down), 
44 tlblindex] .count lock)) != 0)， 

45 pthread mutex unlock(& (blindex] .count lock)); 
46 break; 

47 } 

48 base = base + num threads/i; 

49 i = 1i* 2; 

50 } while (i <= num threads) ; 

51 i=i/ 2; . 

32 for (; i >1;i=i/ 2) 1f 

53 base = base - num threads/i; 

54 index = base + thread id / i; 

55 pthread mutex lock(&(b[index] .count lock) ) ; 

56 blindex] .count = 0; 

57 pthread cond signal (&(b[index] .ok to proceed down) ) ; 

58 pthread mutex unlock(& (blindex] .count_Lock) ) ; 

59 } 

60 | 


在 这 种 障碍 的 实现 中 ， 可 以 把 障碍 看 成 为 二 叉 树 ， 线 程 到 达 树 的 叶 节 点 。 考 虑 有 8 个 线程 
障碍 的 实例 ， 线 程 0 和 线程 1 在 一 个 时 节点 配对 。 线 程 之 一 被 指定 为 树 的 下 一 层 中 线程 对 的 代 
表 。 在 上 面 的 例子 中 ， 线 程 0 被 指定 为 代表 ， 它 等 待 条 件 变量 ok_to_proceed_up ， 以 便 线 
程 ] 赶 上 。 所 有 偶数 编号 的 线程 进入 树 的 下 一 层 。 现 在 线程 0 与 线程 2 配对 ， 线 程 4 与 线程 6 配对 。 
最 终 线 程 0 与 线程 4 配对 。 此 时 ， 线 程 0 了 解 所 有 的 线程 已 到 达 需 要 的 障碍 点 ， 它 通过 发 送 条 件 
变量 ok_to_proceed_down 信 号 释放 线程 。 所 有 的 线程 被 释放 后 ， 障 碍 完成 。 

容易 看 出 ， 对 于 * 个 线程 的 障碍 ， 树 中 有 z- 1 个 节点 。 每 个 节点 与 两 个 条 件 变量 对 应 ， 一 
个 变量 用 来 释放 线程 ， 让 线程 赶 上 ， 另 一 个 用 来 释放 线程 ， 让 线程 中 止 。 另 外 ， 每 个 节点 还 
与 一 个 锁 以 及 到 达 该 节点 的 线程 数目 对 应 。 树 节点 线性 排列 在 数组 myl1og Logbarrier t 
中 ，n/2 个 叶 节 点 中 含有 前 n/2 个 元 素 ， 更 高 一 层 中 /4 个 树 节点 含有 n/4 个 元 素 ， 以 此 类 推 。 

研究 这 个 程序 的 性 能 很 有 意义 。 由 于 线性 障碍 中 的 线程 一 个 接 一 个 地 被 释放 ， 可 以 作出 
合理 的 预测 : 即使 在 多 处 理 器 中 ， 运 行 时 间 也 与 线程 的 数目 成 线性 关系 。 图 7-3 绘 出 1000 个 线 
性 障碍 在 32 个 处 理 器 的 SGI Origin 2000 上 的 运行 时 间 。 串 行 障碍 的 线性 运行 时 间 很 清楚 地 在 
运行 时 间 中 反映 出 来 。 在 一 个 处 理 器 上 执行 的 对 数 障碍 的 工作 量 疡 近 地 等 于 一 个 串 行 障碍 
(虽然 有 一 个 更 大 的 常数 )。 然 而 ， 在 并 行 计 算 机 上 ， 在 二 又 障碍 树 的 子 树 被 分 配给 不 同 处 理 
器 这 样 一 种 理想 的 情况 下 ， 运 行 时 间 以 O(n/p + log p) 增 长 。 如 果 不 能 像 子 树 分 配给 每 个 处 理 
秋 一 样 相应 地 检查 或 者 分 配 成 块 的 线程 ， 虽 然 这 一 点 很 难 做 到 ， 但 对 数 障碍 还 是 显示 出 比 串 
行 性 障碍 好 得 多 的 性 能 。 对 于 给 定数 目的 处 理 器 ， 当 n 变 大 时 ， 对 数 障碍 的 性 能 趋 于 与 4 成 线 
性 关系 ， 因 为 在 式 O(n/p + log p) 中 ，n/p 项 在 执行 时 间 中 开始 对 log p 项 占 支配 位 置 。 无 论 从 观 
察 中 还 是 从 直观 分 析 中 都 能 得 出 这 样 的 结论 。 
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对 数 障碍 (1000, 32 个 处 理 器 ) -一 
线性 障碍 (1000, 32 个 处 理 器 ) 


时 间 ( 秘 ) 





线程 数 
图 7-3 在 32 个 处 理 器 的 SGI Origin 2000 上 ，1000 个 线性 障碍 
和 对 数 障 碍 的 运行 时 间 与 线程 数目 的 函数 关系 


7.9 设计 异步 程序 的 技巧 


设计 多 线程 应 用 程序 时 ， 一 定 要 记 住 ， 不 能 假设 有 关 其 他 线程 的 任何 执行 顺序 。 任 何 这 
种 顺序 都 必须 用 前 面 讨 论 过 的 同步 机 制 显 式 地 建立 ， 互 斥 锁 、 条 件 变量 以 及 连接 。 另 外 ， 系 
统 也 可 以 提供 其 他 同步 手段 。 但 是 ， 由 于 可 移植 性 的 原因 ， 不 提倡 使 用 其 他 形式 的 同步 。 

在 许多 线程 库 中 ， 线 程 在 半 确 定性 的 时 间 间 隔 切 换 ， 这 样 的 库 在 程序 中 更 能 原谅 同步 错 
误 。 这 种 库 称 为 轻微 异步 (slightly asynchronous) 库 。 另 一 方面 ， 内 核 线程 (内核 支持 的 线 
程 ) 以 及 在 多 个 处 理 器 上 调度 的 线程 却 较 少 宽容 错误 。 因 此 ， 关 于 线程 库 中 异步 的 等 级 ， 程 
序 员 一 定 不 能 做 任何 假设 。 

下 面 看 看 由 于 不 正确 地 假设 线程 的 相对 执行 时 间 而 导致 的 常见 错误 : 

* 比方 说 ， 线 程 T1 创 建 另 一 个 线程 T2>，T2 需 要 从 T1 得 到 一 些 数据 。 这 种 数据 通过 全 局 内 

存单 元 传送 。 然 而 ， 线 程 T1 在 创建 T2 后 才 把 数据 放 到 指定 单元 。 此 处 隐 含 的 假设 为 : 

T1 在 阻塞 前 不 会 被 切换 ; 或 者 T2 只 在 T1 存 放 完 数据 后 才 访 问 数据 单元 。 由 于 T1 在 创建 

T2 后 可 能 立刻 被 切换 ， 这 种 假设 就 可 能 导致 错误 。 在 这 种 情形 下 ，T1 将 接收 未 被 初始 

化 的 数据 。 

* 假设 和 前 一 种 情况 一 样 ， 线 程 T1 创 建 线程 T2， 然 后 需要 传送 数据 给 驻 留 堆 栈 中 的 线程 

它 通过 传递 一 个 指向 线程 T2 在 堆栈 位 置 的 指针 传送 数据 。 假 设 T1 在 T2 被 调度 前 运 

行 结束 。 此 时 ， 栈 帧 已 被 释放 ， 而 一 些 其 他 的 线程 可 能 覆盖 原先 由 栈 帧 指向 的 空间 。 在 

这 种 情况 下 ， 线 程 T2 从 单元 读 出 的 数据 可 能 是 无 效 的 。 同 样 的 问题 也 会 发 生 在 全 局 变量 

上 。 

* 强烈 建议 不 要 使 用 调度 技术 作为 同步 的 手段 。 在 并 行 计算 机 中 ， 要 记录 调度 决策 是 极其 





困难 的 。 而 且 ， 当 处 理 器 数目 改变 时 ， 根 据 线程 的 调度 策略 ， 这 些 问 题 可 能 会 改变 。 事 
实 上 ， 较 低 优先 级 的 线程 运行 时 ， 较 高 优先 级 的 线程 可 能 在 等 待 。 

下 面 推荐 有 助 于 减少 线程 化 程序 错误 的 一 些 经 验方 法 。 

* 在 实际 创建 线程 前 ， 将 线程 的 所 有 需求 设置 好 。 这 包括 初始 化 数据 、 设 置 线程 属性 、 线 
程 优先 级 以 及 互 斥 锁 属 性 等 。 一 旦 创建 一 个 线程 ， 在 创建 线程 重新 调度 前 ， 新 创建 的 线 
程 可 能 实际 运行 结束 。 

“ 当 两 个 线程 间 的 某 些 数据 项 存在 生产 者 -消费 者 关系 时 ， 一 定 要 保证 生产 者 线程 在 数据 
被 消费 前 存放 数据 ， 且 保证 中 间 缓 冲 区 不 溢出 。 

* 在 消费 者 端 ， 要 保证 数据 能 保留 到 所 有 将 在 的 消费 者 都 消费 了 数据 。 这 一 点 特别 与 堆栈 
变量 有 关 。 

“在 可 能 的 情况 下 ， 定 义 和 使 用 组 同步 以 及 数据 复制 。 这 样 能 显著 地 提升 程序 性 能 。 

虽然 上 面 这 些 简 单 技巧 为 编写 无 错误 的 线程 程序 提供 了 准则 ， 在 实际 编程 时 还 是 要 特别 

小 心 ， 以 避免 与 同步 有 关 的 竞赛 条 件 以 及 并 行 开销 。 


7.10 OpenMP: 基于 命令 的 并 行 编程 标准 


本 章 的 第 一 部 分 讲述 了 使 用 线程 API 在 共享 地 址 空间 计算 机 上 编程 。 虽 然 对 这 些 API 的 标 
崔 化 及 支持 已 有 了 很 长 的 时 间 ， 但 使 用 者 主要 还 是 系统 程序 员 而 不 是 应 用 程序 员 。 其 原因 之 
一 是 ， 像 Pthreads 这 样 的 API 被 认为 是 低层 原 语 。 依 照常 识 ， 许 多 应 用 程序 可 由 较 高 层 的 结构 
(或 命令 ) 有 效 地 支持 ， 程 序 员 不 用 对 线程 进行 操作 。 这 种 基于 命令 的 语言 已 存在 很 长 时 间 ， 
但 直到 最 近 才 以 OpenMP 的 形式 完成 了 标准 化 。OpenMP 是 一 种 可 以 用 FORTRAN、C 以 及 C++ 
人 在 共享 地 址 空间 计算 机 上 进行 编程 的 API。OpenMP 命 令 提供 对 并 发 、 同 步 以 及 数据 处 理 的 支 
持 ， 但 不 需要 显 式 设置 互 斥 锁 、 条 件 变量 、 数 据 范 围 以 及 初始 化 。 在 本 章 其 余部 分 将 使 用 
OpenMP C API. 


7.10.1 OpenMP 编 程 模型 


下 面 先 用 一 个 简单 的 程序 来 开始 讲述 OpenMP 编 程 模型 。C 语 言及 C++ 中 的 OpenMP 命 令 
基于 #pragma 编 译 器 命令 ， 命 令 本 身 由 命令 名 及 后 面 的 子 句 构成 。 


#pragma omp directive [clause list] 


除非 遇 到 Parallel 命令 ， 否 则 OpenMP 程 序 串 行 执行 。parallel1 命 令 用 来 创建 一 组 线 
程 。 线 程 的 确切 数目 可 由 命令 指定 , 用 一 个 环境 变量 指定 , 或 者 在 运行 时 用 OpenMP 函 数 指定 。 
过 到 parallel 命 令 的 主线 程 变 为 这 一 组 线程 的 主 (master) 线程 。 在 这 一 组 中 ， 它 被 分 配 的 
线程 d 为 0。parallel 命 令 的 原型 如 下 : 


] #pragma omp Parallel [ciause list] 
2 /* gtructured block */ 


每 个 由 这 条 命令 创建 的 线程 执行 由 paralle1l 命 令 指定 的 structured block。 子 句 列 

表 用 来 指定 条 件 并 行 、 线 程 数 目 以 及 数据 处 理 。 . 
* 条 件 并 行 : 子 句 if (标量 表达 式 ) 决定 并 行 结构 是 否 将 导致 创建 线程 。 一 条 paralle1 
命令 只 能 使 用 一 个 i£f 子 句 。 
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。 并 发 度 : 子 句 num_threads (整数 表达 式 ) 指定 由 Parallel 命令 创建 的 线程 数目 。 

。 数 据 处 理 : 子 句 private (变量 表 ) 表示 指定 的 变量 集 对 每 个 线程 都 是 本 地 的 一 一 即 
每 个 线程 对 表 中 的 每 个 变量 都 有 一 个 副本 。 子 句 firstprivate (变量 表 ) 与 子 句 private 
类 似 ， 除 了 进入 线程 变量 的 值 要 在 paralle1 命 令 前 初始 化 成 相应 的 值 以 外 。 子 句 shared 
(变量 表 ) 表示 表 中 的 所 有 变量 对 于 所 有 线程 都 是 共享 的 ， 即 只 有 一 个 副本 。 当 用 线程 处 理 这 
些 变量 以 保证 串 行 性 时 ， 一 定 要 特别 小 心 。 





图 7-4 OpenMP 程 序 样本 以 及 可 能 由 OpenMP 编 译 器 
执行 的 该 程序 的 Pthreads 翻译 a 


观察 对 应 的 Pthreads 翻译 内 容 ， 就 很 容易 理解 OpenMP 的 并 发 模型 。 图 7-4 中 列 出 一 种 可 
能 的 从 OpenMP 程 序 到 Pthreads 程 序 的 翻译 。 感 兴 “ 趣 的 读者 可 能 注意 到 ， 这 种 翻译 可 以 轻易 地 
通过 Yacc 或 CUP 脚 本 自动 实现 。 


例 7.9 使 用 parallel 命 邻 


1 #pragma omp parallel if (is parallel == 1) num_threads (8) Ne 
2 private (a) shared (b) firstprivate(c) 
3 
4 
5 


} 


程序 中 ， 如 果 变 量 is_parallel 的 值 等 于 1， 就 创建 8 个 线程。 每 个 线程 得 到 变量 a 和 变 
量 c 的 私有 副本 ,并 共享 变量 b 的 值 。 此 外 ，c 的 每 个 副本 的 值 用 paralle1l 命 令 之 前 的 c 的 值 
进行 初始 化 。 时 


变量 的 默认 状态 由 子 句 default (shared) 或 default (none) 指定 。 子 名 
default (shared) 表明 ， 在 默认 情况 下 ， 一 个 变量 被 所 有 的 线程 共享 。 子 句 default 


/* structured block */ 


潮 钙 怀 G0 0 浊 沪 渤 Ns i i Bd 





(none) 表明 ， 线程 中 用 到 的 每 个 变量 的 状态 必须 显 式 指定 。 通 常 要 防止 由 无 意 的 对 共享 数 
据 的 并 发 存 取 引 起 的 错误 。 


像 子 句 firstprivate 指 定 变量 的 多 个 本 地 副本 如 何在 线程 中 初始 化 一 样 ， 当 多 个 线程 


退出 时 ， 子 句 reduction 指 定 在 不 同 线程 中 的 变量 的 多 个 副本 如 何在 主线 程 中 组 合成 一 个 副 
本 。 子 名 reduction 的 用 法 为 reduction (操作 符 : 变量 表 )。 这 个 子 句 用 操作 符 对 变量 表 中 
指定 的 标量 变量 进行 归 约 。 表 中 的 变量 被 隐 式 指定 为 对 线程 私有 。 操 作 符 可 以 是 +，*， 一 ，&K， 
1，^、 改 改 或 | 1。 


例 7.10 使 用 reduction 子 句 


] #pragma omp paraillel reduction (+: sum) num threads (8) 
2 

3 /* compute local sums here */ 

4 

5 


/* Sum here contains sum of all local instances of gumg */ 


本 例 中 ，8 个 线程 中 的 每 一 个 都 获得 变量 sum 的 一 个 副本 。 当 多 个 线程 退出 时 ， 所 有 本 地 
副本 的 和 存储 在 变量 的 一 个 单一 副本 中 (在 主线 程 )。 国 


除了 上 面 讲 的 数据 处 理子 名 外， 还 有 另 一 个 子 句 copyin。 在 我 们 讨论 数据 范 国 后 ， 将 在 
7.10.4 节 详细 地 讲述 copyin 子 句 。 

至 此 ， 我 们 能 用 Parallel 命令 及 多 种 子 名 编写 第 一 个 DpenMP 程 序 。 为 便于 介绍 我 们 引 
入 两 个 函数 : 函数 omP_get_num_threads () 返 回 并行 范 围 内 的 线程 数目 ， 函 数 
omp_get_thread num( ) 返 回 每 个 线程 的 整数 id (回想 主线 程 的 id 为 0 ) 。 


例 7.11 用 OpenMP 命 令 计 算 PI 


我 们 第 一 个 Open MP 程序 仿照 例 7.2， 用 一 个 Pthreads 程 序 计算 x。 并 行 命令 指定 除 
npoints 以 外 的 所 有 变量 都 是 本 地 的 ，npoints 为 穿 过 所 有 线程 的 二 维 空间 中 的 随机 点 的 总 
数 。 此 外 ， 命 令 指定 有 8 个 线程 ， 所 有 线程 执行 完毕 后 sum 的 值 是 每 个 线程 中 的 本 地 值 之 和 。 
困 数 omP_get_num_threadS 用 来 确定 线程 的 总 数 。 和 例 7.2 一 样 ， 一 个 foz 循 环 用 来 产生 
所 需 数目 的 随机 点 〈 在 二 维 空间 ) ， 并 确定 有 多 少 个 点 位 于 指定 的 单位 直径 的 圆 内 。 


1 /* 家 宰 宇 二 宣 罕 十 守 二 家 证 商定 喜 疝 韦 窒 商 浴 帘 商 宽 次 吉 审 翰 声 窑 突 向 资 安家 裕 窒 机 市 责 宣 南 凋 突 向 窑 审 测 寥 家 坎 在 证 坎 次 家 


2 An OpenMP version of a threaded program to compute PI. 

3 容 源 容 宙 证 浴 灾 肖 安 商 兴 安定 窑 宙 次 站 六 病 往 直 削 窒 汪 济济 肖 汕 二 汪 六 削 计 省 省 站 汪汪 汪 认 从 贰 站 生肖 沉 关 过 省 证 当前 宣 阐 */ 

4 

5 #pragma omp parallel default (private) shared (npoints) \ 

6 reduction(+: sum) num threads (8) 

7 { 

8 num threads = omp_ get num threads (); 

9 sample_points per thread = npoints / num threads:; 

10 Sum = 0; 

il for (i = 0; i < sample points per thread; i++) { 

12 rand no x =(double) (rand r(&seed))/ (double) ((2<<14)-1); 
13 rand no y =(double) (rand r(&seed))/ (double) ((2<<14)-1); 
14 if (((rand no x - 0.5) * (rand no x - 0.5) + 

15 (rand no y - 0.5) * (rand noy - 0.5)) < 0.25) 

16 SUM ++; 

17 } 

i8 } 


与 相应 的 POSIX 线 程 程序 相 比 ， 该 程序 在 指定 创建 和 终止 线程 方面 更 容易 编写 。 
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7.10.2 在 OpenMP 中 指定 并 发 任务 


命令 parallel 可 以 和 其 他 命令 -- 起 用 于 指定 通过 返 代 和 任务 的 并 发 。OpenMP 提 供 两 条 
命令 一 一 for 和 sections 用 来 指定 并 发 的 迭代 和 任务 。 


1. for 命 令 
for 命 令 用 来 在 多 个 线程 间 分 割 并 行 迭 代 空 间 。foz 命 令 的 一 般 形 式 如 下 : 


1 #pragma omp for [clause list] 
2 /* for loop */ 
3 





这 种 情况 下 可 用 的 子 句 有 private、 firstprivate、lastprivate、reduction、 
schedule、nowait 和 ordered。 前 4 个 子 句 用 来 处 理 数据 ， 这 4 个 子 名 的 语义 和 
parallel 命 令 中 一 样 。 子 句 lastprivate 用 来 处 理 变量 的 多 个 本 地 副本 在 并 行 for 循 环 结 
束 时 如 何 写 回 到 单一 副本 中 。 当 使 用 for 循 环 (或 者 将 会 见 到 的 sections 命 令 ) 将 工作 分 
配给 线程 时 ， 有 时 候 需 要 在 for 循 环 的 最 后 一 次 迭代 (与 串 行 执行 定义 的 一 样 ) 中 更 新 变量 
的 值 。 这 一 点 是 通过 Lastprivate 命 令 实现 的 。 


例 7.12 用 for 命 令 计算 x 


回 晤 例 7.11，、for 循 环 的 每 次 迭代 都 是 独立 的 ， 由 此 可 以 并 发 地 执行 。 在 这 种 情况 下 ， 可 
以 用 for 命 令 简 化 程序 。 修 改 后 的 代码 段 如 下 : 


#pragma omp parallel default (private) shared {npoints) \ 


l 

2 reduction(+: gum) num threads (8) 

3 ( 

4 sum = 0; 

5 #pragma omp for 

6 for (i = 0; i «< npoints; i++) { 

7 rand no x ={(double) (rand r(&seed))/(double) ({(2<<14) -1),， 
8 rand no y = (Gouble) (rand r (&seed))/ (double) ((2<<14)-1),， 
9 if (((rand no x - 0.5) * (rand no x - 0.5) + 

10 (rand no y - 0.5) * (rand no y - 0.5)) <a0.25) 

11 Sum ++}; 

12 } 

13 } 


这 个 例子 中 的 for 命 令 用 来 指定 后 面 紧 跟 着 的 for 循 环 必须 并 行 执 行 ， 即 在 多 个 线程 间 分 
割 。 请 注意 ， 与 例 7.11 中 的 sample_points_per_thread 不 同 ， 本 例 中 的 循环 索引 从 0 到 
npoints。 默 认 情 况 下 ，for 命 令 的 循环 索引 假设 为 私有 。 注 音 这 段 OpenMP 代 码 与 对 应 的 
品行 代码 则 只 有 两 条 命令 的 区 别 。 本 例 说 明 ， 将 许多 品行 程序 转换 为 基于 OpenMP 的 线程 程序 
非常 简单 。 : z 


2. 将 选 代 分 配给 线程 

for 命 令 的 schedu1le 子 句 用 来 将 选 代 分 配给 线程 。schedule 命 令 的 一 般 形 式 为 
schedule(scheduling class[,parameter]). OpenMP 支 持 4 种 调度 类 : static、 
dynamic、guided 和 runtime。 


例 7.13 OpenMP 中 的 调度 类 一 一 矩阵 相 乘 
本 例 用 稠密 矩阵 相 乘 来 研究 不 同 的 调度 类 。 将 矩阵 a 与 矩阵 b 相 乘 得 到 和 殷 阵 c 的 代码 如 下 : 
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for (i = 0; i < dim; i++) { 
for (j] = 0; j < dim; j++) { 
c (1,j) = 0; 
for (kX = 0; k < dim; k++) 1 
c(i,j) += a{i, k) * bpb(k, j); 


0 下 


} 
} 


上 面 的 代码 段 指定 一 个 三 维 迄 代 空间 ， 为 学 习 OpenMP 中 不 同 的 调度 类 提供 了 理想 的 例 
于 。 四 


static 调 度 ” static 调度 类 的 一 般 形 式 为 schedule(staticf,chunk-size])。 它 将 
迭代 空间 分 割 成 大 小 为 chunk-~size 的 相等 的 块 ， 并 将 这 些 块 以 循环 的 方式 分 配给 线程 。 如 
果 没 有 指定 chunk-size， 和 迭代 空间 就 分 成 与 线程 数目 一 样 多 的 块 ， 每 个 块 分 配给 每 个 线程 。 


例 7.14 第 阵 相 乘 的 循环 static 调 度 
下 面 修改 后 的 矩阵 相 乘 程序 使 最 外 面 的 友 代 在 多 个 线程 间 静 态 分 割 ， 如 图 7-Sa 所 示 。 


1 #pragma omp parallel default (private) shared (a，b，c，dim) \ 
2 num threads (4) 

3 #pragma omp for schedule (static) 

4 for (i = 0; i < dim; i++) { 

5 for (j = 0; jj < dim; j++) { 

6 c(i,j)} = 0; 

7 for (k = 0; k < dim; k++) { 

8 c(i,j) += a(li, k) * b(k, j); 

9 


10 } 

11 } 

由 于 一 共有 4 个 线程 ， 且 没有 指定 块 的 大 小 ， 如 果 dim = 128， 则 每 个 分 区 的 大 小 为 32 列 。 
使 用 schedule(static， 16) 将 导致 如 图 7-S$b 所 示 的 迭代 空间 划分 。 若 例 7.13 中 程序 的 每 
个 for 循 环 在 多 线程 间 用 schedule(static) 并 行 化 ， 且 人 允许 让 套 并 行 ， 则 划分 的 结果 如 图 
7-$c 所 示 ， 这 是 空间 分 割 的 另 一 个 例子 (参见 7.10.6 节 )。 | 国 
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图 7-5 使 用 OpenMP 的 static 调 度 类 的 3 种 不 同调 度 


dynamic 调 度 通常 ， 由 于 许多 原因 ， 从 不 同类 的 计算 机 资源 到 非 均 匀 处 理 器 负载 ， 同 等 
划分 的 工作 负载 的 执行 时 间 有 很 大 的 差别 。 因 此 ，OpenMP 中 有 一 个 Gynamic 调 度 类 ,这 个 [17 
类 的 一 般 形式 为 schedule (dynamic[ ,chunk-size])。 迭代 空间 被 划分 成 chunk-~-size 
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大 小 的 块 。 但 是 ， 这 些 块 只 在 线程 变 为 空 几 时 才 分 配给 它们 。 这 样 就 能 考虑 到 由 static 调 度 造 
成 的 上 盟 时 不 平衡 。 如 果 疫 有 指定 chunk-size， 则 默认 为 每 个 块 一 个 返 代 。 

guided 调 度 ”如 果 迭 代 空 间 中 有 100 次 迭代 ， 块 大 小 为 5， 则 迭代 空间 将 被 分 成 20 块 。 如 
朱 有 16 个 线程 ， 在 最 佳 情况 下 ，12 个 线程 的 每 个 线程 得 到 1 块 ， 其 余 4 个 线程 的 每 个 线程 得 到 2 
块 。 因 此 ， 如 采 处 理 器 与 线程 的 数量 一 样 多 ， 这 样 的 配送 就 会 导致 可 观 的 空闲 。 这 个 问题 
(也 称 为 边缘 效应 (edge effect)) 的 解决 办 法 是 在 计算 的 进行 过 程 中 减少 块 的 大 小 。 这 是 
guided 调 度 类 的 原则 。 这 个 类 的 一 般 形式 为 schedule (guided[ ,chunk-size]y。 在 这 个 
类 中 ， 当 每 个 块 分 配给 每 个 线程 时 ， 块 的 大 小 按 指数 缩小 。chunk-size 为 应 分 配 的 最 小 块 
的 大 小 。 因 此 ， 当 剩余 的 迭代 数目 小 于 chunk-size 时 ， 所 有 的 迭代 将 一 次 分 配 完 。 如 果 
chunk-size 的 大 小 设 有 指定 ， 则 默认 为 1。 

运行 时 间 通常 需要 将 调度 决策 延迟 到 运行 时 间 。 例 如 ， 如 果 想 看 到 不 同 的 调度 策略 的 影 
啊 ， 然 后 再 选 出 最 佳 的 一 种 ， 就 可 以 将 调度 设置 为 runtime。 在 这 种 情况 下 ， 由 环境 变量 
OMP_SCHEDULE 决 定 调度 类 以 及 块 的 大 小 。 

当 不 用 omp for 命 令 指定 调度 类 时 ， 实 际 的 调度 方法 就 没有 指定 ， 而 要 依靠 具体 的 实现 。 
for 命 令 对 跟 在 它 后 面 的 foz 循 环 设置 另外 的 限制 。 例 如 ， 循 环 中 不 能 有 中 断 语句 ， 循 环 控制 
变量 必须 是 整数 ，foz 循 环 的 设 定 初 值 的 表达 式 必 须 是 一 个 整数 ， 逻 辑 表 达 式 必须 是 <、《 、 
> 或 者 > ， 增 量 表达 式 中 必须 只 有 整数 增加 量 或 减少 量 。 读 者 可 以 参考 OpenMP 手 册 了 解 关于 
这 些 限制 的 详细 情况 。 


3. 在 多 个 for 命 令 间 同步 

通常 ， 并 行 结构 中 需要 有 一 系列 的 for 命 令 ， 而 且 这 个 并 行 结构 在 每 个 for 命 令 结 束 时 也 
不 执行 隐 式 障碍 。OpenMP 提 供 一 个 子 句 nowait， 它 可 以 和 for 命 令 一 起 使 用 ， 用 来 表明 线 
程 可 以 进入 下 一 个 语句 ， 无 需 等 待 其 他 所 有 的 线程 结束 foz 循 环 执行 。 下 面 的 例子 说 明 这 个 
子 名 的 用 法 。 


例 7.15 使 用 nowait 子 句 


这 个 例子 中 ， 变量 name 需 要 在 两 个 列表 一 一 current_1list 和 past 1ist 中 查找 。 如 
朱 该 变量 名 存在 于 一 个 列表 中 ， 则 必须 被 相应 地 处 理 。 变 量 名 也 可 能 在 两 个 列表 中 。 此 时 ， 
没有 必要 等 待 所 有 的 线程 在 进入 第 二 个 循环 前 完成 第 一 个 循环 的 执行 。 因 此 ， 可 以 使 用 
nowait 子 名 节省 空闲 及 同步 开销 ， 程 序 代 码 如 下 : 


#pragma omp parallel 
{ 


#pragma omp for nowait 
for (i = 0; i < nmax; i++) 
‘if (isEqual (name, current list [i]) 
processCurrentName (name) ; 
#pragma omp for 
for {i = 0; i < mmax; i++) 
if (isEqual (name, past list [i]) 
processPastName (name) ; 


二 号 辣 吕 了 一 


} 
时 
4. sections 命 令 


for 命 令 适 用 于 划分 跨越 多 个 线程 的 迭代 空间 。 现 在 考虑 有 3 个 任务 (taskA，taskB， 
taskC) 需要 执行 。 假 设 这 3 个 任务 彼此 独立 ， 可 以 分 配给 不 同 的 线程 。 在 OpenMP 中 ， 可 用 
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sections 命 令 进行 这 种 非 循 环 的 并 行 任务 分 配 。sections 命 令 的 一 般 形式 如 下 : 
#pragma omp sections [clause 118t] 


{#pragma omp section 
/* Structured block */ 


[#pragma omp section 
/* Structured block */ 


! 
2 
3 
4 
5 ] 
6 
7 
8 ] 
9 . 
10 1 
sections 命 令 将 与 每 个 段 对 应 的 结构 化 块 分 配给 一 个 线程 (事实 上 可 将 一 个 以 上 的 段 
分 配给 一 个 线程 )。clause 1ist 中 可 能 会 包括 如 下 子 名 一 一 private、firstprivate、 
lastprivate、reduction 以 及 nowait， 这 些 子 句 的 语法 和 语义 与 for 命 令 中 的 一 样 。 
本 例 中 ， 子 句 l1astprivate 指 定 更 新 变量 值 的 sections 命 令 的 最 后 段 (词法 上 的 ) ; 在 
sections 命 令 的 最 后 ， 子 句 nowait 指 定 所 有 线程 没有 隐 式 同步 。 
为 了 执行 3 个 并 发 任务 taskA，taskB，taskC， 相 应 的 sections 命 令 如 下 : 


#pragma omp Pazrallel 
{ 


l 

2 

3 #pragma omp sections 

4 

5S #pragma omp section 
6 

7 taskaA {()，; 

8 } 

9 #pragma omp section 
10 

11 taskB(}; 

12 

13 #pragma omp section - 
14 

14 taskC(); 

16 

17 } 

18 } 


如 果 有 3 个 线程 ， 每 个 段 (此 时 即 为 相应 的 任务 ) 分 配给 一 个 线程 。 线 程 在 分 配 段 执行 结 
束 时 同步 【除非 使 用 了 nowait 子 句 )。 注 意 ， 分 支 进 入 或 分 支 跳出 section 块 都 是 不 合法 的 ， 


5. 合并 命令 

到 目前 为 止 ， 讨 论 了 用 命令 paralle1 创 建 并 发 的 线程 ， 用 for 命 令 和 sections 命 令 将 
工作 分 配给 线程 。 如 果 没 有 指定 Parallel 命令 ， 则 for 命 令 和 sections 命 令 将 串 行 执行 
(所 有 的 工作 都 分 配给 一 个 线程 ， 即 主线 程 ) 。 因 此 ， Parallel 命令 通常 在 for 命 令 和 
sections 命 令 之 前 。OpenMP 允 许 程序 员 把 paralle1l 命 令 分 别 合并 成 parallel for 和 
parallel sections 命 令 。 合 并 后 命令 的 子 句 列表 可 以 是 parallel 命 令 的 子 句 列表 ,也 
可 以 是 for/sections 命 令 的 子 句 列表 。 例 如 : 

pa omp parallel default (private) shared (n) 
#pragma omp for 


] 

2 

3 

4 for (i = 0<i<n; i++) { 

人 body of Parallel for loop */ 
7 


2 
be 
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刁 
1 #pragma omp parallel for default (private) shared (n) 
2 { 
3 for (i = 0<i<cn; it++) { 
4 /* body of parallel for loop */ 
5 } 
6 } 
7 
相同 ， 同 时 
1 #pragma omp parallel 
2 
3 #pragma omp sections 
4 
5 #pragma omp section 
6 
7 taskA{).; 
8 } 
9 #pragma omp section 
10 
11 taskB(),; 
12 
13 /* other sections here */ 
14 } 
15 } 
等 同 于 
l #pragma omp parallel sections 
2 { 
3 #pragma omp section 
4 
5 taskaA (); 
6 } 
7 #pragma omp section 
8 
9 taskB () ; 
10 } 
11 /* other sections here */ 


12 } 


6. 恢 赛 parallel 命 令 
回 到 程序 7-13。 要 在 多 个 线程 间 分 割 每 个 for 循 环 ， 必 须 对 程序 作 如 下 修改 : 


1 #pragma omp parallel for default (private) shared (a, b, ¢, dim) \ 
2 num threads (2) 

3 for (i = 0; i < Gim; i++) { 

4 #pragma omp parallel for default (private) shared (a, b, c, dim) \\ 
5 num_ threads (2) 

6 for (j = 0; j < dim; j++) { 

7 c(i,j) = 0; 

8 #pragma omp Paralliel for default (private) \ 

9 shared {a, b, c¢, dim) num threads (2) 

10 for (k = 0; k < dim; k++) { 

11 c(i,j) += a(li, k) * b(k, j); 

12 

13 } 

14 } 


先 来 看 看 这 段 代 码 是 如 何 编写 的 。 它 没有 将 3 个 for 命 令 幅 套 到 一 个 barallel 命 令 中 ， 
而 是 使 用 了 3 个 parallel for 命 令 。 这 是 因为 OpenMP 不 允许 for、sections 以 及 
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single 命 令 绑 定 到 同一 个 被 从 套 的 parallel1 命 令 。 进 而 ， 遇 到 代 套 的 paral1Iel 命 令 时 ， 
这 段 代 码 只 会 产生 一 队 人 逻辑 线 程 。 新 产生 的 这 队 逻 辑 线程 仍然 由 与 外 部 parallel 命 令 对 应 
的 同一 线程 执行 。 为 了 产生 一 组 新 的 线程 ， 必 须 用 OMP_NESTED 坏 境 变 量 来 启用 幢 套 并 行 。 
如 果 OMP NESTED 环 境 变 量 被 设置 为 FALSE， 那 么 内 部 的 paralle1l 区 域 将 串 行 化 ， 并 由 一 
个 线程 执行 。 如 果 OMP_NESTED 环 境 变量 被 设置 为 TRUE ， 则 嵌 套 并 行 被 启用 。 环 境 变 量 的 默 
认 状 态 为 FALSE， 即 贬 套 并 行 被 禁用 。OpenMP 环 境 变 量 在 7.10.6 节 详细 地 讲述 。 

在 贬 套 并 行 中 ， 还 有 许多 与 同步 结构 相关 的 限制 。 关 于 这 些 限 制 的 详细 情况 ， 读 者 可 以 
查 岗 OpenMP 手 册 . 


7.10.3 OpenMP 中 的 同步 结构 


在 7.5 市 ， 我 们 讨论 了 需要 对 多 个 线程 的 执行 进行 协调 。 这 可 能 是 由 所 需要 的 执行 顺序 、 
指令 集 的 原子 性 或 者 代码 段 的 串 行 执 行 需要 造成 的 。Pthreads API 支 持 互 斥 锁 和 条 件 变量 。 使 
用 它们 可 以 通过 读 - 写 锁 、 障 碍 以 及 监控 器 等 形式 实现 更 高 层次 的 功能 。OpenMP 标 准 以 易于 
使 用 的 API 提 供 这 种 高 层 的 功能 。 本 节 将 考查 这 些 命令 以 及 它们 的 使 用 。 

1. 同步 点 : barrier 命 令 

barrier 是 最 常用 的 同步 原始 变量 。OpenMP 提 供 了 barrier 命 令 ， 它 的 语法 如 下 

1 #pragma omp barrier 


过 到 此 命令 时 ， 队 中 所 有 的 线程 都 要 等 待 其 他 的 线程 跟 上 ， 然 后 释放 。 当 与 做 套 的 
baral1lel 命 令 一 起 使 用 时 ，barrier 命 令 绪 定 到 最 近 的 parallel 命 令 。 对 于 按 条 件 执行 


障碍 ， 一 定 要 注意 ，barzrier 命 令 必须 包含 在 条 件 执 行 的 复合 语句 中。 这 是 因为 pragma 是 


编译 性 命令 ， 不 是 语言 的 一 部 分 。 障 碍 也 能 通过 结束 及 重新 开始 parallel 区 域 实 现 。 但 是 ， 与 
此 相关 的 开销 通常 都 会 更 高 。 因 此 ， 这 不 是 实现 障碍 的 可 选 方法 。 


2. 单线 程 执行 : single 和 master 命 令 z 

一 个 并 行 段 内 的 计算 通常 只 需 由 一 个 线程 执行 。 计 算 一 个 数字 列表 的 平均 值 便 是 这 样 一 
个 简单 例子 。 每 个 线程 计算 部 分 列表 中 的 本 地 和 ， 并 把 这 些 本 地 和 加 到 一 个 共享 的 全 局 和 
中 ， 然 后 ， 让 一 个 线程 以 全 局 和 除 以 列表 中 的 项 目 数 得 到 平均 值 。 最 后 一 步 可 以 用 single 
命令 实现 。 

single 命 令 指 定 一 个 由 单一 (任意 的 ) 线程 执行 的 结构 化 块 。 命 令 的 语法 如 下 : 


1 #pragma omp Single [clause 1iet] 
2 structured block 


子 句 表 (clause 1ist) 可 以 是 子 句 private、firstprivate 以 及 nowait。 这 些 子 
句 的 语义 和 前 面 的 一 样 。 遇 到 single 块 时 ， 第 一 个 线程 进入 块 。 所 有 其 他 的 线程 进行 到 块 的 
末尾 。 如 果 在 块 的 尾部 指定 了 nowait 子 句 ， 则 其 他 的 线程 继续 ; 否则 这 些 线程 在 single 块 
的 尾部 等 待 ， 直 至 线程 完成 块 的 执行 。 这 条 命令 在 计算 全 局 数据 以 及 进行 WO 操作 时 很 有 用 。 

master 命 令 是 single 命 令 的 特殊 情况 ， 它 指定 只 能 由 主线 程 执行 结构 化 块 。master 
命令 的 语法 如 下 : 


1 #pragma omp master 
2 structured block 


《oa 


[We 
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与 single 命 令 相 反 ， 不 存在 伴随 master 命 令 的 隐 式 障碍 。 


3. 临界 段 : critical 和 atomic 命 令 

在 讨论 Pthreads 时 ， 曾 经 考查 用 锁 来 保护 临界 区 域 ， 即 必须 串 行 地 一 次 执行 一 个 线程 的 区 
域 。 除 了 显 式 锁 管理 (7.10.5 证 ) 外 ，OpenMP 提 供 critical 命 令 实现 临界 区 域 。 
critical 命 令 的 语法 如 下 : 


1 #pragma omp critical |[ {name)]) 
structured block 


这 里 ， 可 选 标识 符 name 用 来 标识 临界 区 域 。 使 用 name 可 以 使 不 同 的 线程 执行 不 同 的 代 
码 ， 且 相 互 保护 。 
例 7.16 在 生产 者 ~ 消费 者 线程 使 用 critical 命 令 

在 生产 者 -消费 者 模式 中 ， 生 产 者 线程 产生 一 个 任务 ， 并 将 它 插 和 人 到 任务 队列 。 消 费 者 线 
程 从 队列 中 提取 任务 ， 并 一 次 执行 一 个 任务 。 由 于 存在 对 任务 队列 的 并 发 访问 ， 这 些 访问 必 


须 用 临界 块 串 行 化 。 特 别 地 ， 将 任务 插入 到 队列 以 及 从 队列 中 提取 任务 必须 被 串 行 化 。 这 可 
用 下 述 方法 实现 : 


] #pragma omp parallel Sectiong 

2 。 

3 #pragma parallel section 

4 

和 /* producer thread */ 

6 task = produce task{); 

7 #pragma omp critical ( task queue) 
8 { 

9 inaert _into queue (task),; 

10 } ， 

1] } 

12 #pragma parallel section 

13 { 

14 /* consumer thread */ 

15 #pragma omp critical ( task queue) 
16 { .| 

17 task = extract from queue (task); 
18 

19 consume task (task); 

20 } 


值得 注意 的 是 ， 队 列 满 和 队列 空 的 条 件 必须 在 函数 insert _into queue 和 
extract from queue 中 显 式 处 理 。 图 


critical 命 令 保证 在 程序 执行 的 任意 一 点 处 ， 只 有 一 个 线程 在 由 一 个 名 称 指定 的 临界 
段 内 部 。 如 果 某 一 线程 已 经 在 临界 段 内 部 (已 命名 )， 所 有 其 他 的 线程 必须 等 待 该 线程 完毕 才 
能 进入 命名 的 临界 段 。 名 称 字段 为 可 选项 。 如 果 没 有 指定 名 称 ， 则 临界 段 映 射 到 一 个 默认 名 
称 ， 这 个 名 称 与 所 有 未 命名 的 临界 段 的 名 称 相同 。 在 整个 程序 中 ， 临 界 段 的 名 称 都 是 全 局 的 。 

容易 看 出 ， 命令 critical 是 Pthreads 中 相应 的 mutex 函 数 的 直接 应 用 。 名 称 字 有 段 上 映 
射 到 进行 锁 操作 的 互 斥 锁 名 称 。 和 Pthreads 中 一 样 ， 一 定 要 记 住 ，critical 段 表示 程序 中 起 
行 化 的 点 ， 因 此 ， 一 定 要 尽 可 能 减 小 临界 段 的 大 小 (在 执行 时 间 方 面 )， 以 求 获 得 好 的 性 能 。 

使 用 critical 命 令 时 一 定 要 注意 几 个 明显 的 安全 措施 。 指令 的 block 必 须 表 示 结 构 化 





块 ， 即 不 允许 跳 人 块 或 从 块 中 跳出 。 容 易 看 出 ， 跳 人 块 将 导致 非 临界 访问 ， 而 跳出 块 将 导致 
未 释放 的 锁 ， 引 起 线程 无 限 等 待 。 
通常 ， 临 界 段 只 由 对 某 单个 内 存单 元 的 一 个 更 新 组 成 ， 人 例如， 整数 相 加 或 者 增加 一 个 增 
量 。OpenMP 提 供 另 一 个 命令 atomic， 用 来 实现 对 内 存单 元 的 原子 更 新 。atomic 命 令 指定 ， 
对 随后 指令 中 内 存单 元 的 更 新 一 定 应 作为 原子 操作 进行 。 更 新 指令 可 以 是 下 面 几 种 形式 之 一 : 
| x binary operation = expr | 
2 Xx++ 
3 ++X 
4 x-- 
5 --Xx 
这 里 ，expr 是 一 个 标量 表达 式 ， 它 不 包括 对 x 的 引用 ，x 本 身 是 标量 类 型 的 左 值 ， 
binary operation 是 {+，*，-，/,&，||,《,》} 之 一 。 应 该 记 住 ， 命 令 atomic 只 对 
载 和 人 及 存储 标量 变量 原子 化 。 表 达 式 的 计 值 不 是 原子 的 。 要 非常 小 心地 避免 竞赛 条 件 隐 含 其 
中 ， 这 也 可 以 解释 为 什么 atomic 命 令 中 的 expz 项 不 能 包含 更 新 的 变量 自身 。 所 有 的 
atomic 命 令 都 可 以 被 critical 命 令 代 替 ， 只 要 它们 的 名 称 相 同 。 但 是 ， 与 转换 成 
critical 命 令 相 比 ， 原 子 化 硬件 指令 的 实用 性 可 以 优化 程序 的 性 能 。 


4. 按 里 序 执行 ， ordered 命 令 

在 许多 情况 下 ， 需 要 像 执行 串 行 版 本 程序 的 顺序 一 样 执行 并 行 循环 的 代码 段 。 例 如 ， 考 
虑 一 个 for 循 环 ， 于 循环 中 的 某 点 ， 计 算 一 个 存储 在 数组 1ist 中 的 列表 与 数组 cumu1_sum 
元 素 的 标 积 和 。 数 组 cumu1l_sum 的 计算 可 在 foz 循 环 中 用 下 标 工 串 行 地 执行 
cumul sum[i]= cumul sum[i-1]+1list[i] 得 到 。 当 在 多 个 线程 间 执 行 这 个 for 循 环 
时 ， 应 该 注意 必须 等 到 cumul_sum[ i~1] 的 值 计算 后 ， 才 能 计算 cumul _sum[i] 的 值 。 所 
以 ， 语 句 一 定 要 在 一 个 ordered 块 中 执行 。 

ordered 命 令 的 语法 如 下 : 


1 #pragma omp ordered 
2 structured block 


由 于 ordered 命 令 代表 for 循 环 的 按 序 执行 ， 它 必 须 位 于 for 或 parallel for 命令 的 
作用 域内 。 进 而 ，for 或 parallel for 命 令 中 必须 含有 ordered 子 句 ， 用 来 表示 在 循环 中 
包含 ordered 块 。 


例 7.17 用 ordered 命 令 计算 列表 的 累积 和 


前 面 已 经 讲 过 ， 要 计算 列表 中 :个 数 的 累积 和 ， 可 以 把 当前 数 加 到 列表 中 i-1 个 数 的 累积 
和 上 。 然 而 ， 这 个 循环 必须 按 顺 序 执行 。 而 且 ， 第 一 个 元 素 的 累积 和 就 是 这 个 元 素 本 身 。 因 
此 ， 可 用 ordered 命 令 编写 代码 如 下 : 


cumul_ sum[0] = list [0); 


] 

2 #pragma omp Parallel for private (i) \ 

3 ahared (cumul sum, list, n) ordered 
4 for (i = 1; ixcn; i++) | 

5 人 

6 /* other processing on list[i] if needed */ 
7 

8 #pragma omp ordered 

9 

10 cumul_ sum[i] = cumul suml[li-1]1 + list [i],; 


11 } . 
12 ) z 国 





0 


需要 特别 注意 的 是 ，ordered 命 令 代 表 程序 中 一 个 有 序 的 串 行 化 点 。 当 所 有 人 先前 的 线程 
(由 循环 索引 确定 ) 退出 后 ， 只 有 一 个 线程 能 进入 一 个 有 序 块 。 因 此 ， 如 果 循 环 的 大 部 分 包含 
在 ordered 命 令 中 ， 则 相应 的 加 速 比 就 不 能 达到 在 上 例 中 ， 除 非 在 ordered 命 令 之 外 有 一 
个 重要 的 处 理 与 1ist [i] 有 关 ， 并 行 形式 不 会 比 串 行 形式 快 。 限 制 一 个 for 命 令 中 只 能 有 一 


个 ordered 块 。 


5. 内 存 一 致 性 : flush 命 令 

flush 命 令 提 供 在 线程 间 实 现 内 存 一 致 的 机 制 。 在 共享 地 址 空间 计算 机 中 ， 此 命令 看 起 
来 有 点 多 余 ， 但 要 注意 ， 变 量 经 常 被 分 配给 寄存 器 ， 而 寄存 器 分 配 的 变量 可 能 会 不 一 致 。 这 
时 ， 通 过 强制 变量 写 人 内存 系统 或 将 变量 从 内 存 系 统 读 出 ，flush 命 令 提 供 一 个 内 存 顶 栏 。 
所 有 对 共享 变量 的 写 操作 必须 在 一 个 ELush 中 提交 到 内 存 ， 所 有 在 栅栏 后 对 共享 变量 的 引用 
必须 从 内 存 实现 。 由 于 私有 变量 只 和 一 个 线程 相关 ，flush 命 令 只 应 用 于 共享 变量 。 

flush 命 令 的 语法 如 下 : 

1 #pragma omp flush[ (list))]) 

可 选项 1ist 指 定 需 要 被 刷新 的 变量 ， 默 认 情况 下 ， 所 有 的 共享 变量 都 被 刷新 。 

几 个 OpenMP 命 令 中 有 隐 式 flush， 特别 是 flush 隐 含 在 barrier 中 ,在 critical、 
ordered、parallel for 以 及 parallel sections 块 的 人 口 和 出 口 处 ,在 for、 
sectionsl 以 及 single 块 的 出 口 处 。 如 果 有 nowait 子 句 ， 则 不 会 隐 含 flush。 在 for、 
sections 以 及 single 块 的 入口 处 ， 以 及 master 块 的 入 口 或 出 口 处 ， 也 没有 隐 含 Elush。 


7.10.4 OpenMP 中 的 数据 处 理 


线程 对 数据 的 处 理 是 影响 程序 性 能 的 重要 因素 之 一 。 前 面 已 经 简单 地 讲述 了 OpenMP 支 持 
的 多 种 数据 类 ，、 如 private、shared、firstprivatel 以 及 lastprivate。 现 在 再 对 它 
们 进行 更 详细 地 讨论 ， 了 解 如 何 使 用 这 些 数据 类 。 下 面 我 们 给 出 一 些 实用 的 建议 : 
。 如 果 一 个 线程 初始 化 并 使 用 了 一 个 变量 (如 循环 索引 )， 且 没有 其 他 的 线程 存 取 数 据 ， 
那么 应 为 线程 制作 一 个 变量 的 本 地 副本 ， 数 据 也 应 该 指定 为 private。 
* 如 采 一 个 线程 重复 地 读 取 一 个 变量 ， 且 此 变量 在 程序 的 早期 已 被 初始 化 ， 那 么 ， 对 变量 
作 一 个 副本 并 继承 线程 创建 时 变量 的 值 是 有 利 的 。 这 样 ， 当 线程 在 处 理 器 中 调度 时 ， 数 
据 可 以 驻 留 在 同一 处 理 器 中 (可 能 在 它 的 高 速 缓存 中 )， 对 数据 的 存 取 不 会 造成 处 理 器 
间 的 通信 。 这 样 的 数据 应 该 指定 为 firstprivate， 
* 如 果 多 个 线程 处 理 一 块 数据 ， 则 必须 寻求 方法 将 这 些 处 理 分 成 多 个 本 地 操作 ， 再 加 上 一 
个 全 局 操作 。 例 如 ， 如 果 多 个 线程 记录 着 某 个 事件 的 计数 ， 则 最 好 保留 本 地 计数 ， 并 在 
并行 块 的 最 后 用 求 和 操作 让 计数 增加 。 子 名 reduction 支 持 这 样 的 操作 。 
* 如 果 多 个 线程 处 理 一 个 大 数据 结构 的 不 同 部 分 ， 则 程序 员 应 寻求 方法 将 大 数据 结构 分 成 
小 数据 结构 ， 并 使 这 些小 数据 结构 对 于 处 理 它们 的 线程 是 私有 的 。 
* 所 有 上 面 的 方法 都 试 过 后 ， 用 子 句 shared 可 使 剩余 的 数据 项 被 多 个 线程 共享 。 
除了 Private、sharedQ、firstprivate 以 及 lastprivate 外 ， OpenMP 还 支持 另 一 
个 数据 类 ， 称 为 threadprivate。 
threadprivate 和 copyin 命 令 在 保持 线程 数目 不 变 条 件 下 ， 一 组 对 象 通过 并 行 或 串 行 块 
时 以 持久 的 方式 使 其 对 一 个 线程 本 地 可 用 ， 通 常 这 样 做 是 有 用 的 。 与 private 变 量 相反 ， 这 
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些 变量 对 于 通过 并 行 区 域 保 持 不 变 的 对 象 是 有 用 的 ， 否 则 这 些 对 象 就 必须 复制 到 主线 程 的 数 
据 空 间 中 ， 并 在 下 一 个 并 行 块 重新 初始 化 。 该 类 变量 在 OpenMP 中 用 threadPrivate 命 令 支 
持 。 命 令 的 语法 如 下 : 

1 #pragma omp threadprivate (variable list) 

这 条 命令 隐 含 在 variable_1ist 中 的 所 有 变量 对 每 个 线程 而 言 都 是 本 地 的 ， 且 在 一 个 
并 行 区 域内 被 访问 前 初始 化 一 次 。 此 外 ， 如 果 线 程 数目 的 动态 调整 被 禁止 和 线程 数目 不 变 ， 
则 这 些 变量 在 不 同 的 并 行 区 域 中 能 够 保持 不 变 。 

与 firstprivate 相 似 ，OpenMP 提 供 一 种 机 制 ， 用 于 将 同样 的 值 分 配给 一 个 并 行 区 域 
中 所 有 线程 的 threadprivate 变 量 。 这 就 是 copyin 子 句 , 它 能 和 parallel 命 令 一 起 使 用 ， 
语法 为 copyin(variable 1List)。 


7.10.5 _ OpenMP 库 函数 


除了 命令 以 外 ，OpenMP 还 提供 许多 函数 , 使 程序 员 能 够 控制 线程 程序 的 执行 。 可 以 看 出 ， 
这 些 函 数 和 相应 的 Pthreads 函 数 类 似 ; 但 是 ， 通 常 这 些 函 数 处 在 更 高 的 抽象 层次 ， 更 易于 使 
用 。 


1. 控制 线程 和 处 理 器 数目 
下 面 的 OpenMP 函 数 与 线程 程序 中 用 到 的 并 发 性 和 处 理 器 数目 有 关 : 


1 #incliude <omp.h> 


void omp_ set num threads (int num threads) ; 
int omp_ get num threads (); 

int omp _ get max threads (); 

int omp get thread num () ; 

int omp geét num procs (); 

int omp_in parallel (); 


汞 数 omp_set_num threads 设 置 默 认 的 线程 数目 ， 如 果 parallel 命 令 中 没有 使 用 
num_threads 子 句 ， 那 么 这 些 线程 在 过 到 下 一 个 parallel 命 令 时 创建 。 这 个 函数 必须 在 并 
行 区 域 的 范围 外 调用 ， 且 必须 启用 对 线程 的 动态 调整 (使 用 7.10.6 节 中 讲述 的 OMP _ 
DYNRAMIC 环 境 变量 或 者 omp set_dynamic 库 函数 )。 

国 数 omp_get_num_threads 返 回 参 与 到 队 中 的 线程 数目 。 它 绑 定 到 最 靠近 它 的 并 行 命 
令 上 ， 在 没有 并 行 命令 时 ， 返 回 1 ( 指 主线 程 )。 函 数 omp_get_max_threads 返 回 可 能 由 遇 
到 的 Parallel 命令 创建 的 最 大 线程 数目 ， 它 没有 num_threads 子 句 。 国 数 omP_get_ 
thread_num 对 一 个 队 中 的 每 个 线程 返回 一 个 唯一 的 线程 ia。 此 id 取 从 0 ( 指 主线 程 ) 到 
omp_get_num_threads ( ) ~1 的 整数 值 。 国 数 ompP_get_num procs 返 回 在 那 一 点 可 用 来 
执行 线程 程序 的 处 理 器 数目 。 最后， 函数 omp_in_paral1lel 对 于 从 并 行 区 域内 的 调用 返回 
一 个 非 0 值 ， 从 并 行 区 域外 的 调用 返回 0。 


2. 控制 和 监控 线程 的 创建 
下 面 的 OpenMP 函 数 使 程序 员 能 够 设置 和 监控 线程 的 创建 : 


1 #include <omp.h> 


0 下 


3 void omp_set dynamic (int dynamic threads); 


ty 
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4 jint omp get dynamic {); 
3 void omp set nested (int nested), 
6 int omp get nested () ; 


因数 omP_set_dynamic 人 允许 程序 员 动 态 地 改变 在 遇 到 并 行 区 域 时 创建 的 线程 数目 。 如 
术 dynamic_threads 的 计 值 为 0， 则 停止 动态 调整 ， 否 则 启用 动态 调整 。 函 数 必须 在 并 行 区 
域外 调用 。 相 应 的 状态 ， 即 动态 调整 被 启用 或 停止 ， 可 用 函数 omp_get_dynamic 查 询 ， 它 
在 动态 调整 启用 时 返回 一 个 非 0 值 ， 没 有 启用 时 返回 0。 

畏 数 ompP_set_nested 在 其 参数 nested 为 非 0 值 时 多 许 人 圣 套 并 行 ， 在 参数 nested 为 0 
时 停止 企 套 并 行 。 当 诺 套 并 行 停止 时 ， 所 有 随后 遇 到 的 伐 套 并 行 区 域 都 被 串 行 化 。 嵌 套 并 行 
的 状态 可 用 函数 omp_get_nested 查 询 ， 它 在 嵌 套 并 行 被 启用 时 返回 一 个 非 0 值 ， 停 止 使 用 
时 返回 0。 


3. 互 斥 
OpenMP 提 供 对 临界 段 和 原子 更 新 的 支持 , 但 有 时 使 用 一 个 显 式 锁 更 方便 。 对 于 这 种 程序 ， 

OpenMP 提 供 初 始 化 锁 、 锁 定 、 解 锁 以 及 放弃 锁 的 函数 。 在 OpenMP 中 ， 锁 数据 结构 的 类 型 为 

omp_lock 七 。OpenMP 定 义 以 下 函数 : 

#include <omp.h> 


void omp init lock {omp lock t *lock); 
void omp destroy loek {omp lock t *lock),; 
void omp set lock (omp lock 上 *lock); 
void omp unset lock (omp_lock t *lock),; 
int omp test lock (omp lock t *lock); 


一 定 要 先 初 始 化 锁 ， 然 后 才能 使 用 锁 。 锁 的 初始 化 使 用 函数 omp_init lock。 当 锁 不 
再 需要 时 ， 必 须 用 函数 omp_destroy_lock 放 弃 。 对 已 被 初始 化 的 锁 进 行 初始 化 ， 或 放弃 
未 初始 化 的 锁 ， 都 是 不 合 革 的。 一 旦 锁 被 初始 化 ， 它 就 可 以 用 函数 omp_set_lock 锁 定 和 函 
数 omp_unset_lock 解 锁 。 锁 定 一 个 先前 被 解锁 的 锁 时 ， 线 程 获得 对 锁 的 独占 访问 。 所 有 其 
他 的 线程 试图 用 omp_set_1lock 锁 定时 都 必须 等 待 这 个 锁 。 只 有 拥有 锁 的 线程 可 以 对 其 解锁 。 
如 有 线程 试图 对 由 其 他 线程 拥有 的 锁 进 行 解 锁 ， 则 将 得 到 不 确定 的 结果 。 锁 定 和 解锁 操作 先 
于 初始 化 锁 或 在 放弃 锁 后 都 不 合法 。 函 数 omp_test _lock 用 来 测试 锁 是 否 已 被 设置 ， 如 果 
国 数 返 回 一 个 非 0 值 ， 则 锁 已 被 成 功 设 置 ， 否 则 锁 当 前 被 另 一 个 线程 拥有 。 

与 Pthreads 中 的 递归 互 斥 锁 一 样 ，OpenMP 也 支持 可 储 套 锁 ， 同 一 线程 对 可 俱 套 锁 可 以 锁 
定 多 次 。 这 种 情况 下 ， 锁 对 象 是 omp_nest_1lock 七 ， 处 理 供 套 锁 的 相应 函数 为 : 


1 #include <omp.h> 


i 人 Cn 


void omp_init nest_lock (omp_nest lock 七 *lock); 
void omp_destroy nest lock (omp _ nest lock 上 *lock); 
void omp_ set neast lock (omp nest lock t *lock),; 
void omp_ unset nest lock (omp nest lock 上 *lock),; 
int omp_test nest_ lock (omp nest lock t *1ock) :; 


这 些 函 数 的 语义 与 对 应 的 简单 锁 函 数 类 似 。 注 意 ， 所 有 这 些 函 数 都 在 Pthreads 中 有 直接 对 
应 的 互 斥 锁 调用 。 


7.10.6 OpenMP 中 的 环境 变量 
OpenMP 提 供 额 外 的 环境 变量 帮助 控制 并 行程 序 的 执行 。OpenMP 有 如 下 的 环境 变量 。 


J 
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OMP_NUM_THREADS ”这 个 环境 变量 指定 进入 parallel 区 域 时 创建 线程 的 默认 数 
日。 线程 的 数 日 既 可 用 冰 数 omp _ set num threads 改 变 ， 也 可 以 用 parallel1 命 令 的 
num _ threads 子 名 改变。 注意 只 有 当 变 量 OMP SET DYNRAMIC 设 置 为 TRUE 或 用 非 0 参数 调 
用 冰 数 omPp_set_adynamic 时 ， 才 能 动态 地 改变 线程 数目 。 例 如 ， 如 果 程 序 执行 前 在 csh 中 
输入 以 下 命令 ， 那 么 默认 的 线程 数目 设置 为 8， 

l Setenv OMP NUM THREADS 8 

OMP_DYNAMIC 当 此 变量 设置 为 TRUE 上 时， 允许 线程 的 数目 在 运行 时 用 函数 omp_set_ 
num_threads 或 num_threads 子 句 进行 控制 。 如 果 用 参数 0 调用 函数 omp_set dynamic， 
则 对 线程 数目 的 动态 控制 被 停止 。 

OMP_NESTED 当 这 个 变量 设置 为 DRUE 时 ， 启 用 从 套 并 行 ， 除 非 用 参数 0 调用 国 数 
omp_set_ nested 停 用 垦 套 并 行 。 

OMP_SCHEDULE ”这 个 变量 控制 与 使 用 runtime 调 度 类 的 for 命 令 有 关 的 迭代 空间 的 
指定 。 变 量 的 取 值 可 以 是 static、dynamic 以 及 guided， 再 加 上 可 选 的 块 大 小 。 例 如 ， 

| setenv OMP SCHEDULE "static,4n 


指定 在 默认 情况 下 ， 所 有 的 for 命 令 使 用 static 调 度 ， 块 大 小 为 4。 指 定 的 其 他 例子 包括 : 


] setenv OMP SCHEDULE "dynamic" 
2 Setenv OMP SCHEDULE "guided" 


在 这 两 个 例子 中 ， 使 用 的 默认 块 大 小 都 是 1。 
7.10.7 显 式 线程 与 基于 OpenMP 编 程 的 比较 


OpenMP 在 所 有 本 地 线程 的 顶部 提供 一 个 层 ， 使 得 更 容易 执行 许多 与 线程 有 关 的 任务 。 使 
用 由 OpenMP 提 供 的 命令 ， 程 序 员 无 需 再 承担 初始 化 属性 对 象 、 设 置 线程 参数 、 划 分 迭代 空间 
等 工作 。 当 要 解决 的 问题 具有 静态 的 和 /或 正则 的 任务 图 时 ， 这 种 便利 尤其 有 用 。 在 许多 应 用 
程序 中 ， 与 从 命令 自动 产生 线程 代码 有 关 的 开销 是 最 小 的 。. 

然而 ， 使 用 命令 也 有 人 缺点。 用 显 式 线程 编写 的 程序 将 使 数据 交换 更 透明 ， 这 有 助 于 减少 
一 些 与 数据 移动 、 假 共享 以 及 争 用 相关 的 开销 。 显 式 线程 还 提供 更 丰富 的 API， 这 些 API 的 形 
式 为 条 件 等 待 、 不 同类 型 的 锁 以 及 对 构建 复合 同步 操作 时 的 更 大 灵活 性 ( 如 7.8 节 所 述 )。 最 
后 ， 由 于 显 式 线程 比 OpenMP 使 用 更 广泛 ， 更 容易 找到 Pthreads 程 序 的 工具 和 对 它 的 支持 。 

程序 员 在 决定 使 用 何 种 API 编 程 前 ， 一 定 要 权衡 所 有 这 些 利 商 。 


7.11 书目 评注 


无 论 是 显 式 的 基于 线程 的 编程 ， 还 是 基于 OpenMP 的 编程 ， 都 有 许多 优秀 的 参考 文献 。 
Lewis 和 Berg[LB97, LB95a] 提 供 详 细 的 Pthreads 编 程 指 南 。 Kleiman， Shah 和 
Smaalders[KSS95] 对 线程 系统 及 用 线程 编程 提供 出 色 的 描述 。 其 他 几 本 书籍 也 讲述 了 与 多 线 
程 编程 有 关 的 编程 及 系统 软件 问题 [NBF96， But97, Gal95, Lew91, RRRR96, ND96] 。 

人 们 也 开发 了 许多 其 他 的 线程 API 及 系统 ， 它们 经 常 被 用 于 各 种 应 用 程序 中 。 这 些 系统 包 
酉 :Java 线程 {[Dra96, MK99， Hyd99, Lea99]、 微 软 的 线程 API[PG98%， CWP98, Wil00, BW971L 人 
及 Solaris 线 程 API[KSS95, Sun95]。 无 论 从 硬件 还 是 从 软件 来 看 ， 对 线程 系统 的 研究 都 有 着 很 
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长 的 和 富有 成 果 的 历史 ， 可 以 追溯 到 HEP Denelcor[HLM84] 时 期 。 最 近 ， 又 开发 了 一 些 软件 
系统 ， 如 Cilk[BJK+95, LR295],，OxfordBSP[HDM97], Active Threads[Wei97] 以 及 Earth 
Manna[HMT*96]。 多 个 系统 提供 对 多 线程 的 硬件 支持 ， 其 中 包括 MIT Alewife[ADJ+91]， 
Horizon[KS88] ， 同 时 多 线程 [TEL95, Tuli96]， 多 标量 体系 结构 [Fra93] 以 及 超 线 程 体系 结构 
[TY96]。 

人 们 也 研究 了 关于 线程 性 能 方面 的 问题 。 早 期 关于 多 线程 处 理 器 性 能 权衡 方面 的 工作 在 
[Aga89, SBCV90, Aga91, CGL92, LB95b] 中 己 有 介绍 。 人 们 也 广泛 地 研究 了 共享 内 存 的 一 致 
性 模型 。 其 他 活跃 的 研究 领域 包括 运行 系统 、 编 译 器 支持 、 基 于 对 象 的 扩展 、 性 能 评估 以 及 
软件 开发 工具 。 人 们 还 致力 于 在 工作 站 网 络 上 共享 内 存 支持 软件 的 研究 。 所 有 这 些 仅 仅 涉及 
有 关 用 线程 编程 的 问题 。 

由 于 出 现时 间 不 长 ， 有 关 OpenMP 编 程 的 书籍 相对 较 少 [CDK+*00]。 在 http://www. 
openmp .org 可 以 找到 OpenMP 标 准 及 扩展 的 资料 集 。 许 多 其 他 的 文章 (以 及 特刊 ) 讨论 了 
有 关 OpenMP 性 能 、 编 译 以 及 互 用 性 方面 的 问题 [Bra97, CM98, DM98, LHZ98, Thr99] 
习题 

Z.1 估计 下 面 执行 Pthreads 中 的 每 一 种 操作 花费 的 时 间 : 

。 线程 创建 

。 线程 连接 

。 成 功 锁 定 

。 成 功 解锁 

“成 功 trylock (试探 锁 ) 

* 不 成 功 trylock (试探 锁 ) 

。 条 件 等 待 

* 条 件 标 记 

。 条件 广播 

针对 每 个 操作 ， 仔 细 记 录 计 算 每 种 函数 调用 时 间 所 使 用 的 方法 ， 同 时 记录 所 用 的 计算 机 。 

7.2 ”使 用 多 个 线程 插入 到 队列 及 从 队列 中 提取 多 个 线程 ， 实 现 一 个 多 存 取 线 程 队列 。 使 
用 互 斥 锁 同 步 对 队列 的 存 取 。 记 录 下 1000 次 插入 和 1000 次 提取 的 时 间 ， 每 次 有 64 个 插入 线程 
(生产 者 ) 和 64 个 提取 线程 (消费 者 )。 

7.3 ”使 用 条 件 变量 (除了 互 斥 锁 以 外 ) 重 做 习题 7.2。 记 录 下 进行 与 上 题 同 样 试验 花费 的 
时 间 ， 并 对 时 间 的 差别 加 以 评论 。 

7.4 一 个 简单 的 流 媒 体 播 放 器 由 以 下 部 分 组 成 : 一 个 监视 网 络 端口 到 达 数 据 的 线程 ， 一 
个 对 数据 包 解 压缩 并 产生 图 像 序 列 中 的 帧 的 解压 缩 器 线程 ， 以 及 一 个 在 规划 的 间隔 显示 帧 的 
绘制 线程 。 这 3 个 线程 必须 通过 共享 缓冲 实现 通信 一 一 界 于 网 络 和 解压 缩 器 之 间 的 输入 缓冲 ， 
以 及 界 于 解压 缩 器 与 绘制 器 之 间 的 输出 缓冲 。 实 现 这 个 简单 的 线程 框架 。 网 络 线程 调用 虚拟 
细 数 1isten_to_port 从 网 络 收 集 数据 。 就 此 程序 而 言 ， 这 个 函数 产生 所 需 长 度 的 随机 字 节 
串 。 解 压缩 线程 调用 函数 decompress， 该 函数 从 输入 缓冲 取得 数据 ， 并 返回 预先 确定 大 小 
的 帧 。 对 于 这 个 习题 ， 产 生 一 个 具有 随机 字 节 数 的 帧 。 最 后 ， 绘制 器 线程 从 输出 缓冲 取出 帧 ， 





并 调用 显示 函数 。 显 示 销 数 将 一 帧 作为 参数 ， 对 于 这 个 习题 ， 它 没有 操作 。 用 条 件 变 量 实现 
这 个 线程 框架 。 注 意 ， 很 容易 改变 这 3 个 虚拟 国 数 ， 得 到 一 个 有 意义 的 芒 媒 体 解 压缩 器 。 

7.5 ”请 使 用 二 又 树 搜 索 算法 展示 递归 锁 的 用 法 。 程 序 要 求 一 个 很 大 的 数字 列表 。 列 表 在 
多 个 线程 间 划 分 。 每 个 线程 试图 用 与 树 对 应 的 单个 锁 将 它 的 元 素 插 人 到 树 中 。 说 明 即 使 在 线 
程 数 目 不 多 的 情况 下 ， 单 个 锁 也 会 成 为 瓶颈 。 

7.6 通过 将 锁 与 树 中 的 每 个 节点 对 应 (与 单个 锁 和 整个 树 对 应 相反 ) ， 改 进 二 叉 树 搜索 程 
序 。 线 程 在 读 或 写 节 点 时 锁定 该 节点 。 考 查 这 种 实现 的 性 能 特点 。 

7.7 ”用 读 - 写 锁 进 一 步 改 善 二 又 树 搜索 程序 。 线 程 在 读 一 个 节点 前 对 节点 加 上 读 出 锁 。 
线程 只 在 需要 写 入 树 节 点 时 才 对 节点 加 上 写 入 锁 。 请 实现 该 程序 ， 并 记录 下 使 用 读 - 写 锁 比 常 
规 锁 带 来 性 能 改进 时 程序 参数 的 范围 。 

7.8 ”请 实现 用 链 解 决 冲突 的 线程 散 列表 。 散 列表 中 ， 单 个 锁 与 含 k 个 散 列表 项 的 块 对 应 。 
线程 如 果 试 图 读 / 写 块 中 的 元 素 ， 必 须 先 锁定 对 应 的 块 。 考 查 你 的 实现 中 作为 的 函数 的 性 能 。 

7.9 ”将 散 列表 中 的 锁 改 为 读 - 写 锁 ， 只 在 插入 数据 项 到 链表 时 才 使 用 写 入 锁 。 考 查 此 程 
序 作为 上 的 图 数 的 性 能 。 比 较 此 实现 与 使 用 常规 锁 实现 时 的 性 能 。 

7.10 ”编写 一 个 线程 程序 计算 Eratosthenes 筋 子 。 在 实现 前 仔细 考虑 线程 策略 。 措 清 一 些 
问题 是 重要 的 ， 例 如 ， 不 能 从 筛子 中 去 除 6 的 倍数 ， 除 非 已 去 除了 3 的 倍数 (此 时 可 以 看 出 ， 
无 需 先 去 除 6 的 倍数 )。 用 流水 作业 (装配 线 ) 策略 ， 即 用 当前 最 小 元 素 构成 装配 线 的 下 一 站 
是 解决 问题 的 一 种 方法 。 

7.11 请 编写 一 个 线程 程序 解决 15 迷 宫 问 题 。 程 序 取 某 个 初始 位 置 ， 并 有 一 张 开 放 表 记 录 
未 走 过 的 位 置 。 表 按 迷 宫 板 度 量 的 “优良 度 ” 排 序 。 曼 哈 坦 距离 ( 即 每 个 板 格 所 需 移动 的 x 方 
向 的 位 移 和 y 方 向 的 位 移 之 和 ) 是 较 好 的 度量 方法 之 一 。 开 放 表 是 用 堆 来 实现 的 工作 队列 。 每 
个 线程 从 工作 队列 中 提取 工作 (迷宫 板 )， 将 它 扩张 到 所 有 可 能 的 后 继 者 ， 如 果 后 继 者 还 没有 
用 过 ， 则 将 它 插入 到 工作 队列 中 。 使 用 散 列表 (习题 7.9) 记录 以 前 未 用 过 的 项 。 请 绘 出 程序 
线程 数目 对 增加 运行 速度 的 关系 曲线 。 你 可 以 计算 出 对 某 个 参考 迷宫 板 程 序 的 加 速 对 于 不 同 
的 线程 数目 是 相同 的 。 

7.12 修改 上 面 的 程序 ， 使 之 有 多 个 (如 k 个 ) 开放 表 。 此 时 ， 每 个 线程 取出 一 个 随机 的 
开放 表 ， 并 试图 从 随机 表 中 取出 一 个 “迷宫 板 " ， 把 表 扩 充 后 再 插 回 到 另 一 个 随机 选择 的 表 中 。 
请 给 出 现在 程序 对 于 线程 数目 的 加 速 比 曲线 。 将 性 能 与 上 一 题 作 比 较 。 请 小 心 使 用 锁 及 
trylock (试探 锁 )， 使 串 行 化 开销 达到 最 小 限度 。 

7.13 实现 并 测试 例 7.14 中 和 矩阵 相 乘 的 OpenMP 程 序 。 使 用 OMP_NUM THREADS 环 境 变量 
控制 线程 的 数目 ， 并 绘 出 不 同 线程 数目 的 性 能 曲线 。 考 虑 如 下 三 种 情况 : 让 只 有 最 外 层 的 循环 
并 行 化 ;这 最 外 层 的 两 个 循环 并 行 化 ; 凶 ) 所 有 三 个 循环 都 并 行 化 。 这 三 种 情况 的 结果 是 什么 ? 

7.14 考 虚 一 个 调用 函数 Gummy 的 简单 循环 ， 函 数 包含 一 个 可 控制 的 延迟 。 所 有 对 该 函 
数 的 调用 彼此 独立 。 在 4 个 使 用 static，dynamic 和 guided 调 度 的 线程 间 划 分 这 个 循环 。 
对 static 调 度 和 guided 调 度 使 用 不 同 的 参数 。 记 录 下 当 dummy 函 数 的 延迟 变 大 时 实验 的 结 
果 。 

“19 考虑 以 行 压缩 格式 存储 的 一 个 稀疏 矩阵 (在 网 页 或 任何 有 关 稀 朴 线性 代数 的 书籍 由 
可 以 找到 这 种 格式 的 描述 )。 编 写 一 个 OpenMP 程 序 计算 这 种 矩阵 与 向 量 相 乘 的 乘积 。 从 
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Matrix Market (http://math.nist.gov/MatrixMarket/) 下 载 样本 上 第 孟 ， 并 测试 程序 
的 性 能 ， 以 第 阵 大 小 和 线程 数目 作为 性 能 的 函数 。 
7.16 用 sections 创 建 单一 的 producer 任 务 及 单一 的 consumer 任 务 ， 在 QpenMP 中 
建立 一 个 生产 者 -消费 者 程序 框架 。 用 锁 来 保证 适当 的 同步。 针对 不 同 数目 的 生产 者 和 消费 者 
测试 程序 。 





第 8 章 稠密 忠 阵 算法 


在 数值 与 非 数值 计算 中 经 常 使 用 抵 阵 与 向 量 算法 。 本 章 讨论 关于 稠密 趣 阵 (dense matrix ) 
或 者 满 抵 阵 〈full matrix) 的 一 些 关键 算法 ， 这 种 和 矩阵 没有 或 很 少见 可 用 的 零 元 素 。 为 了 方便 
教学 ， 我 们 专门 论述 方 了 泗 ， 但 是 在 应 用 中 ， 本 章 的 算法 同样 适用 于 和 矩形 秆 阵 。 

由 于 第 阵 和 向 量 的 规则 结构 , 涉及 矩阵 与 向 量 的 并 行 计算 容易 用 于 数据 分 解 ( 见 3.3.2 节 )。 
取决 于 要 进行 的 计算 ， 可 通过 划分 输入 、 输 出 或 者 中 间 数 据 导 出 分 解 。3.4.1 节 详细 描述 并 行 
计算 中 各 种 划分 矩阵 的 方案 。 本 章 讨论 的 算法 使 用 一 维和 二 维 块 、 循 环 以 及 块 循环 等 划分 。 

本 章 所 述 多 数 算法 的 另外 一 个 特性 是 它们 的 每 个 进程 只 有 一 个 任务 。 由 于 任务 到 进程 的 
映射 是 一 对 一 关系 ， 我 们 通常 并 不 明确 地 讨论 任务 ， 而 是 把 问题 直接 分 解 或 者 划分 成 进程 。 


8.1 德 阵 问 量 乘法 


这 一 节 ， 我 们 讨论 的 问题 是 ， 一 个 上 x nn 稠密 矩阵 4 乘 一 个 nx 1 癌 量 x 产生 一 个 nx 1 结果 加 
量 y。 算 法 8-1 显 示 这 个 问题 的 一 个 串 行 算法 ， 该 算法 需要 性 次 乘法 和 加 法 运算 。 


算法 8-1 nn xn 和 矩阵 A 与 n x 1 向 量 x 相 乘 产 生 一 个 n x 1 向 量 y 的 串 行 算法 


procedure MAT_VECT (A, x, y) 

2 begin 

3 fori:=0ton—1ldo 

4. begin 

5. y[i] := 0; 

6 for j :=0ton~l1ldo 

7 y[i] := y[i] + ALi, j] x x{j]}:; 
8 endfor; 

9 end MAT_VECT 


假设 一 次 乘法 和 加 法 运算 需要 一 个 单位 时 间 ， 则 串 行 运行 时 间 为 
W = 六 (8-1) 
根据 使 用 的 是 一 维 行 划分 、 一 维 列 划 分 或 者 是 二 维 划 分 ， 至 少 可 能 有 三 个 不 同 的 矩阵 向 
量 乘法 的 并 行 公式 。 
8.1.1 一 维 行 划分 


本 节 讨 论 使 用 一 维 行 块 划分 的 矩阵 -向 量 乘法 的 并 行 算法 。 使 用 一 维 列 块 划分 的 矩阵 -向 
量 乘 法 的 并 行 算 法 类 似 《 见 习题 83.2) ， 而 且 关 于 并 行 运行 时 间 有 相似 的 表达 式 。 图 8-1 表 示 一 
维 块 划分 方式 下 和 矩阵 向 量 乘法 运算 中 数据 的 分 布 与 移动 。 

1. 每 个 进程 一 行 

首先 考虑 n x ?和 拭 阵 4 在 “个 进程 之 间 划 分 的 情形 ， 这 时 每 个 进程 存储 矩阵 4 的 一 整 行 以 及 
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nx 1 向 量 x 的 一 个 元 素 。 关 于 一 维 行 块 划分 矩阵 与 同 量 的 初始 分 布 如 图 8-1a 所 示 。 进 程 P; 最 初 
拥有 x[ 避 和 A[i,0]，A[i,1],…, A[in-1] 并 且 负 责 计算 y[。 和 矩阵 4 的 每 一 行 与 向 量 x 相 乘 (算法 
8-1) ， 因 此 每 个 进程 需要 整个 向 量 x。 但 是 因为 每 个 进程 开始 时 ， 只 拥有 向 量 x 的 一 个 元 素 ， 
所 以 需要 用 多 对 多 广播 的 方法 将 所 有 的 元 素 分 布 到 所 有 的 进程 中 。 图 8-1lb 说 明了 这 个 通信 步 
受 。 完 成 向 量 x 在 进程 中 的 分 布 后 (图 8-1c)， 进 程 Pi 计算 ?= 了》 (4[,j]x x 四 (算法 8-1 的 
第 6 和 第 7 行 )。 如 图 8-1d 所 示 ， 结 果 向 量 y 的 存储 方法 与 初始 向 量 x 完 全 相同 。 
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a) 对 矩阵 和 初始 向 量 x 的 初始 划分 b) 通过 多 对 多 广播 在 所 有 进程 中 整个 向 量 的 分 布 
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c) 整个 向 量 在 广播 后 分 配 到 各 个 进程 d) 矩阵 和 结果 向 量 y 的 最 终 分 配 


图 8-1 使 用 一 维 行 块 划分 的 n x n 矩 阵 与 nx 1 向 量 的 乘法 
对 于 每 个 进程 一 行 的 情况 , p = 

并 行 运行 时 间 ”每 个 进程 从 一 个 向 量 元 素 开始 ， 在 任意 体系 结构 ( 表 4-1) 中 ， 在 n 个 进程 
中 间 量 元 素 的 多 对 多 广播 所 需 时 间 为 @(n)。 每 个 进程 中 ， 问 量 x 与 从 阵 4 一 行 的 乘法 所 需要 的 
时 间 也 为 G6(n)。 因 此 ， 完 成 全 部 n 个 进程 需要 的 时 间 为 @(n)， 从 而 得 到 进程 时 间 的 乘积 8(n?)。 
由 于 串 行 算法 的 复杂 度 是 B(n?)， 并 行 算法 是 成 本 最 优 的 。 

2. 进程 数 少 于 n 

考虑 p 个 进程 (p < n) 的 情况 ， 使 用 块 一 维 划分 方法 在 进程 之 间 划 分 从 阵 。 每 个 进程 最 初 存 








储 矩 阵 4 的 mwP 个 整 行 和 回 量 x 的 mwP 个 元 素 。 由 于 年 阵 4 的 每 一 行 要 与 向 量 x 相 乘 ， 每 个 进程 需 
要 完整 的 问 量 x 〈 即 各 个 进程 包含 问 量 x 的 所 有 部 分 )。 这 又 要 求 使 用 如 图 8-1b 和 8-1c 所 示 的 多 
对 多 广播 。 多 对 多 广播 在 2 (p < 六 个 进程 之 则 进行 ， 传 输 的 信息 量 为 WP。 完成 通信 之 后 ， 每 
个 进程 中 年 阵 4 的 mwP 个 整 行 要 与 闫 x 1 向 量 x 相 乘 ， 得 到 结果 向 量 y 的 n/p 个 元 素 。 如 图 8-1d 所 示 ， 
结果 向 量 y 的 分 布 方式 与 初始 向 量 x 相 间 。 

并 行 运行 时 间 ”根据 表 4-1， 在 p(p < nn) 个 进程 之 间 进 行 的 多 对 多 广播 ， 传 输 的 信息 量 为 
n/p， 通 信和 时 间 为 1, log p + tw (n/p)(p-1)。 当 p 很 大 时 ， 通信 时 间 可 用 1t, log p + tn 近似 。 完 成 通 
守之 后 ， 每 个 进程 执行 矩阵 4 的 n/p 个 行 与 向 量 x 的 乘法 所 需要 的 时 间 为 xYp。 因 此 ， 该 过 程 的 
并 行 运行 时 间 为 


2 
n 
le= 3 ttlogp+ton (8-2) 


这 个 并 行 公式 的 进程 时 间 乘 积 为 pm = r+ pi log p + ptwn。p = O(n) 时 ， 该 算法 是 成 本 最 

可 扩展 性 分 析 ”按照 5.4.2 节 的 分 析 步 骤 ， 通 过 逐个 研究 开销 销 数 的 各 项 ， 现 在 我 们 来 推 
导 惩 阵 向 量 乘 法 的 等 效率 国 数 。 考 虑 由 公式 (8-2) 给 出 的 关于 超 立 方 结构 的 并 行 运行 时 间 。 关 
系 7 = PT - Y 给 出 超 立 方 体 上 使 用 一 维 块 划分 时 的 矩阵 -向 量 乘法 开销 函数 的 下 述 表 达 式 : 


To = tplogp + tunp (8-3) 


回忆 第 5 章 ， 决 定 并 行 算法 等 效率 函数 的 主要 关系 是 W = KT。( 公式 (5-14))， 其 中 = 
E/(1-E)，E 是 期 望 效 率 。 重 写 矩 阵 - 向 量 乘法 算法 中 的 这 个 关系 ， 首 先 只 用 7 的 i 项， 得 到 


W = Ki,plogp (8-4) 
公式 (8-4) 给 出 关于 消息 启动 时 间 的 等 效率 函数 项 。 同 理 ， 对 于 开销 函数 中 的 1 项， 可 得 
W = Ktunp 


由 于 W = mr (公式 (8-1))， 我 们 使 用 、p 和 1, 导出 W 的 表达 式 〈 即 由 六 导出 的 等 效率 函数 ) 
如 下 : 


n” 一 天 加 PP 
1 2 = K“t2 p? 
W = Kr2 2 
wp (8-5) 


现在 考虑 这 个 并 行 算法 的 并 发 度 。 使 用 一 维 划 分 时 ， 最 多 可 以 使 用 个 进程 实现 n x n 和 矩阵 
A 和 nx 1 向 量 * 的 乘法 。 换 句 话说 ，P = O(n)， 它 能 得 到 下 面 的 条 件 


n = 2(p) 
n = Q(p’) 
W = Q(p’) z (8-6) 


通过 比较 公式 (8-4)、(8-53) 和 (8-6) ， 可 以 确定 总 的 渐 近 等 效率 函数 。 在 三 个 公式 中 ，(8-5) 
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和 (8-6) 给 出 最 高 的 渐 近 速度 ， 按 照 这 个 速度 ， 问 题 的 规模 必需 随 着 进程 数 的 增加 而 增加 ， 才 
能 保持 固定 的 效率 。 这 个 速度 B(p ) 就 是 使 用 - 维 划分 时 并 行 年 阵 -向 量 乘 法 算法 的 源 近 等 效 
率 钠 数 。 

8.1.2 二 维 划分 


本 字 讨 论 使 用 二 维 块 划 分 在 各 个 进程 则 分 布 矩阵 时 矩阵- 向量 乘法 的 并 行 算法 。 图 8-2 给 
出 矩阵 在 各 个 进程 中 的 分 布 ， 以 及 向 量 在 各 个 进程 中 的 分 布 与 移动 。 


n/p 
EE— 3 


1 1 
+ 1 
1 在 ! 
+ 1 
1 
1 
1 





a) 沿 对 角 线 排列 向 量 财 的 初始 
数据 分 布 和 通信 步 赃 


年 阵 A 





c) 部 分 结果 的 多 对 一 归 约 d) 结果 问 量 的 最 终 分 布 
图 8-2 使 用 二 维 块 划分 的 矩阵 ~ 向 量 乘 法 。 对 于 每 个 进程 
一 个 元 素 的 情形 ，、 对 于 n x n 和 俯 阵 有 p = 吧 


1. 每 个 进程 一 个 元 素 

我 们 先 考 虑 简单 的 情况 、 把 n x mn 矩阵 4 在 产 个 进程 中 划分 ， 这 样 每 个 进程 只 拥有 和 矩阵 4 的 
一 个 元 素 。 把 4 x 1 向 量 x 分 布 在 n 个 进程 的 最 后 一 列 ， 每 个 进程 拥有 向 量 x 的 一 个 元 素 。 由 于 在 
计算 中 ， 向 量 x 的 每 个 元 素 要 与 矩阵 4 的 每 行 的 相应 元 素 相 乘 ， 因 此 向 量 * 的 第 i 个 元 素 必须 分 
布 在 能 与 矩阵 4 每 一 行 的 第 ;个 元 素 进行 运算 的 进程 中 。 图 8-2a 和 b 给 出 这 样 分 布 的 通信 步骤 ， 
请 注意 图 8-2 与 图 8-1 的 相似 之 处 。 在 进行 乘法 运算 前 ， 和 矩阵 4 的 元 素 与 向 量 x 的 元 素 必 须 位 于 
同样 的 相对 位 置 ， 如 图 8-1c 所 示 。 但 是 ， 向 量 的 通信 步骤 因 不 同 的 划分 策略 而 异 。 使 用 一 维 





划分 时 ， 向 量 的 元 素 只 需要 通过 水 平 的 划分 边界 (图 8-1)。 而 使 用 二 维 划分 时 ， 向 量 的 元 素 
需要 通过 水 平 与 垂直 的 两 个 划分 边界 (图 8-2)。 

如 图 8-2a 所 示 ， 使 用 二 维 划 分 时 ， 第 一 个 通信 步 又 是 将 向 量 * 沿 着 矩阵 4 的 主 对 角 线 排列 。 
通常 向 量 x 沿 着 矩阵 4 的 主 对 角 线 而 不 是 最 后 一 列 存储 ， 此 时 上 述 步 骤 是 不 需要 的 。 第 二 步 是 
把 向 量 元 素 从 每 个 对 角 进 程 复制 到 相应 列 的 所 有 进程 上 。 如 图 8-2b 所 示 ， 这 个 步骤 包括 mn 个 同 
时 进行 的 一 对 多 广播 操作 ， 每 一 列 的 进程 包括 一 个 操作 。 这 两 个 通信 步骤 后 ， 每 个 进程 再 将 
其 矩阵 元 素 与 * 的 相应 元 素 相 乘 。 为 了 得 到 结果 向 量 )， 必 须 将 每 一 行 的 乘积 结果 相 加 ， 并 把 
结果 放 到 最 后 一 列 的 进程 中 。 图 8-2c 显 示 这 一 步骤 ， 该 步 又 以 行 的 最 后 一 个 进程 为 目标 ， 每 
一 行 都 需要 进行 一 次 多 对 一 归 约 操作 ( 见 4.1 节 )。 在 完成 归 约 步骤 后 ， 并 行 矩 阵 -向量 的 乘法 
即 告 结束 。 

并 行 运行 时 间 “在 这 个 算法 中 使 用 三 个 基本 通信 操作 : 将 向 量 x 的 元 素 沿 矩阵 4 的 主 对 角 
线 分 布 的 一 对 一 通信 ; 在 每 一 列 的 个 进程 中 对 每 个 向 量 元 素 的 一 对 多 广播 : 在 每 … 行 中 进行 
的 多 对 一 归 约 。 每 个 操作 需要 的 时 间 是 B(log n)。 由 于 在 固定 时 间 内 每 个 进程 执行 一 次 乘法 ， 
这 个 算法 的 总 体 并 行 运行 时 间 为 @(n)。 计 算 成 本 (进程 时 间 乘 积 ) 为 6(n? log n);， 因 此 算法 不 
是 成 本 最 优 的 。 | 

2. 进程 数 少 于 n? 

使 用 二 维 块 划分 矩阵 时 ， 通过 使 用 少 于 严 个 进程 增加 每 个 进程 的 计算 粒度 ， 可 能 得 到 矩阵 
向 量 乘法 的 成 本 最 优 的 并 行 算法 。 

考虑 有 p 个 进程 的 逻辑 二 维 格 网 ， 每 个 进程 拥有 和 矩阵 的 一 个 (a/Vp)x(a/ Jp) 块 。 向 量 只 
分 布 在 最 后 一 个 进程 列 的 n/ Vp 个 进程 中 。 图 8-2 显 示 这 种 情况 下 的 初始 数据 映射 和 通信 步 又 ， 
在 进行 乘法 运算 前 ， 必 须 将 所 有 的 向 量 分 布 在 每 一 行进 程 中 。 首 先 向 量 应 该 沿 着 主 对 角 线 排 
列 。 为 此 ， 最 右 列 的 每 个 进程 必须 把 它 的 n/ Vp 个 向 量 元 素 传输 到 它 所 在 行 的 对 角 线 进程 中 。 
然后 ， 进 行 这 n/Vp 个 向 量 元 素 按 列 的 一 对 多 广播 操作 。 接 着 ， 每 个 进程 执行 n2/p 次 乘法 运 
算 和 n/Vp 个 乘积 的 局 部 求 和 运算 。 在 这 一 步 的 最 后 ， 如 图 8-2c 所 示 ， 每 个 进程 有 n/Vp 个 部 
分 和 ， 对 它们 必须 沿 着 每 一 行 累 加 ， 得 到 结果 向 量 。 因 此 ， 以 每 行 的 最 右边 进程 为 目标 ， 本 
算法 的 最 后 一 步 是 每 行 的 n/Vp 个 值 的 多 对 一 归 约 。 

并 行 运行 时 间 在 第 一 步 中 ， 从 最 右边 的 进程 发 送 大 小 为 n/Vp 的 消息 到 对 角 线 上 的 进 
程 (图 8-2a)， 需 要 的 时 间 为 上 +t,n/Vp 。 使 用 4.1.3 节 讲述 的 程序 ， 我 们 可 以 执行 按 列 的 一 对 
多 广播 操作 ， 需 要 的 时 间 最 多 为 (1, + wm/VP)log(VP) 。 忽 略 加 法 运算 的 时 间 ， 最 后 按 行 的 多 
对 一 归 约 操作 也 需要 同样 的 时 间 。 假 设 一 对 乘法 和 加 法 需要 单位 时 间 ， 则 计算 中 每 个 进程 需 
要 的 时 间 大 约 为 n/p。 因 此 ， 这 个 过 程 的 并 行 运行 时 间 为 

计算 排列 向 量 
pr 


2 
1P = n/p 十 三 十 和 2/VP + 
按 列 一 对 多 广播 多 对 一 归 约 


ee ee re 
(ts +twn/Vp)log(VPp) + (ts + twn/vVD) log(vVD) 


n2 n 
SS 一 +tlogp+ity——logp 
Pp VP (8-7) 
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可 扩展 性 分 析 “使 用 公式 (8-10) 和 (8-7)， 并 利用 关系 式 7。= pT, - W (公式 (5-1))， 我 们 可 
以 得 到 这 个 并 行 算法 开销 函数 的 下 述 表 达 式 : 
T=tplogp+twnVplogp (8-8 ) 
现在 我 们 按照 5.4.2 节 的 方法 ， 逐 一 考虑 开销 函数 的 各 项 ， 进 行 近似 等 效率 分 析 (更 精确 
的 等 效率 分 析 见 习题 8.4)。 对 开销 国 数 的 项， 公式 (5-14) 产 生 
W = ktplogp (8-9) 


343 


公式 (8-9) 给 出 关于 消息 启动 时 间 的 等 效率 项 。 通 过 十 用 问题 的 规模 平衡 nyplogp 项 ， 
可 得 到 由 t, 导 出 的 等 效率 函数 。 利 用 公式 (5-14) 的 等 效率 关系 ， 可 得 : 


W=n: = KtwnnVplogp 
n = 天 fwVplogP 
1 K?12 p log’ p 


W = 天 212 PP log?2 P (8-10) 
最 后 ， 由 于 二 维 划分 的 并 发 度 为 r*( 即 可 以 使 用 的 最 大 进程 数目 为 nr?)， 可 得 下 列 公式 : 
p O(n’) 
n” = Q(p) 
W = QQ(p) (8-11) 


在 公式 (8-9)、(8-10)、(8-11) 中 ， 等 号 右边 最 大 的 表达 式 决 定 本 并 行 算法 的 整体 等 效率 函 
数 。 为 了 简化 分 析 ， 我 们 忽略 常数 的 影响 ， 只 考虑 保持 固定 效率 所 需 的 问题 规模 增加 的 渐 近 
速度 。 由 m 《公式 (8-10)) 导致 的 渐 近 等 效率 项 显然 对 由 # (公式 (8-9)) 和 并 发 性 (公式 (8-11)) 
导致 的 渐 近 等 效 项 占有 优势 。 因 此 ， 整 体 渐 近 等 效率 国 数 为 BCp log?p)。 

等 效率 函数 也 决定 成 本 最 优 的 标准 ( 见 5.4.3 节 )。 如 果 等 效率 函数 为 BCp log? p)， 则 对 于 
给 定 规 模 为 W 的 问题 ， 使 成 本 最 优 的 最 大 进程 数目 可 由 以 下 关系 式 确定 : 

plog*p = O(n’) 
logp+2loglogp = O(logn) ( 8-12) 


忽略 低 次 项 ， 
logp = O(logn) 


在 公式 (8-12) 中 用 log n 代 替 log p， 
p log? n = O(n’) 





nz 
P = 0|— 
log n (8-13) 


对 于 n x "矩阵 -向 量 乘法 的 二 维和 矩阵 划分 方法 ， 公 式 (8-13) 的 右 端 给 出 成 本 最 优 时 进程 数 
目的 渐 近 上 界 





3. 一 维 与 二 维 划 分 的 比较 

比较 公式 (8-2) 与 (8-7) 可 见 ， 在 进程 数目 相等 的 情况 下 ， 纸 阵 -向量 乘法 中 使 用 二 维 划分 要 
比 使 用 一 维 划分 更 快 。 如 果 进 程 数目 超过 n， 就 不 能 使 用 一 维 划分 。 根 据 本 节 的 分 析 ， 即 使 进 
程 数目 小 于 或 者 等 于 上 ， 使 用 二 维 划 分 仍然 是 最 好 的 选择 。 

在 男 两 个 划分 方案 中 ， 二 维 划 分 有 更 好 (更 小 ) 的 渐 近 等 效率 函数 。 因 此 ， 使 用 二 维 划 
分 的 矩阵 -向量 乘法 有 更 好 的 可 扩展 性 ; 也 就 是 说 ， 与 一 维 划分 相 比 ， 二 维 划分 可 以 在 更 多 的 
进程 中 得 到 同样 的 效率 。 


8.2 矩阵 与 矩阵 的 弛 法 


本 于 讨论 两 个 上 x "稠密 和 抵 阵 4 与 8 相 乘 得 到 乘积 矩阵 C = 4 x 83 的 并 行 算 法 。 本 章 怎 阵 乘法 
的 所 有 并 行 算法 都 基于 算法 8-2 给 出 的 传统 串 行 算 法 。 如 果 我 们 假定 一 次 加 法 与 乘法 运算 对 
(第 8 行 ) 需要 一 个 单位 时 间 ， 则 这 个 算法 的 串 行 运行 时 间 为 3。 虽 然 也 可 以 找到 具有 更 好 渐 
近 捉 行 复杂 度 的 矩阵 乘法 算法 ， 例 如 Strassen 算 法 ， 但是， 为 简单 起 见 ， 在 本 书 中 我 们 仍然 假 
定 传统 算法 是 可 用 的 最 好 串 行 算法 。 习 题 8.5 探 讨 用 Strassen 方 法 作为 基本 算法 时 的 并 行 矩 阵 乘 
法 算法 的 性 能 。 
算法 8-2 两 个 n x n 和 矩阵 相 乘 的 传统 串 行 算法 


1 procedure MAT MULT (4, B,C) 
2 

3 fori:=0ton—1do 

4. for j := 0ton 一 1do 

5 begin 

6 Cli, j] := 0; 

7 for :=0ton 一 1do 


8. Cli,j] := Cli, j] + A[i, k] x BI[k, j]: 
9. endfor: 
10， end MAT MULT 





算法 8-3 n x n 矩 阵 块 大 小 为 (n/q) x (n/q) 的 块 矩 阵 乱 法 算法 


1 procedure BLOCK MAT MUILT (A, 8, C) 
2 begin 
3 fori:=0tog—1do 
4. for j :=0tog—1do 
5. begin 
6. Initialize all elements of Ci to zero; 
7 fork:=0tog—1 do 
8. Cij := Ci,j + Aix x Be,j; 
9. endfor. 
10. end BLOCK_ MAT MULT : 
OC 
住 低 阵 乘 法 以 及 矩阵 的 其 他 各 种 算法 中 ， 块 矩阵 运算 是 一 个 很 有 用 的 概念 。 在 矩阵 计算 
中 ， 我 们 经 常 可 以 把 对 矩阵 所 有 元 素 的 标量 代数 运算 转换 成 对 原 矩 阵 的 子 矩 阵 或 者 块 什 阵 的 
第 阵 代数 运算 。 这 种 对 子 和 矩阵 的 代数 运算 称 为 块 和 矩阵 运算 (block matrix operation )。 例 如 ， 
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nx n 和 P 阵 可 以 看 成 块 A4,， (O&i,J< 9) 的 g * 4 年 阵 ， 其 中 每 个 块 4 是 原 第 阵 的 一 个 (WUa) x (P/9) 丁 
第 了 泗 。 因 此 ， 算 法 8-2 中 表示 的 矩阵 乘法 算法 可 写成 算法 8-3， 其 中 第 8 行 的 乘法 与 加 法 运算 分 
别 为 矩阵 的 乘法 与 加 法 运算 。 算 法 8-2 与 算法 8-3 不 仅 是 最 后 结果 相同 ， 而 且 每 个 算法 的 标量 加 
法 与 标量 乘法 的 总 次 数 也 完全 相同 。 算 法 8-2 需 要 进行 次 标量 的 加 法 与 乘法 运算 ， 而 算法 8-3 
需要 执行 ?次 盾 阵 乘法 ， 每 次 涉及 (n/q) x (n/g) 个 矩阵 并 需要 (n/g)? 次 标量 加 法 与 乘法 运算 。 我 
们 可 以 用 p (选择 9= VP ) 个 进程 实现 并 行 块 矩 阵 乘法 ， 每 个 进程 计算 不 同 的 C， 块 ， 

下 面 几 小 节 介 绍 算法 8-3 的 几 种 并 行 形式 。 以 下 每 个 并 行 矩 阵 乘法 算法 都 使 用 筑 阵 的 块 二 
维 划分 。 


8.2.1 简单 的 并 行 算法 


考虑 两 个 nx n 矩 阵 4 和 B，、 把 它们 分 别 划 分 成 p 个 大 小 为 (n/Vp)x(n/Vp) 的 块 4,; 和 B,,(0 < 
i,j < yp )。 这些 块 映射 到 yp x VP 个 进程 的 逻辑 格 网 。 这些 进程 的 标号 为 Pj(0 <i,j< Vp-1)。 
进程 Pv 最 初 存储 4v 和 B;; ， 并 计算 结果 和 矩阵 的 块 C;; 。 计 算 子 矩阵 C,， 需 要 所 有 子 矩 阵 4， 和 B., 
(0<k< VYp-1)。 为 了 得 到 全 部 4 和 Buw， 要 在 这 些 进程 的 每 行进 行 矩阵 4 的 块 的 多 对 多 广播 操 
作 ， 间 时 在 这 些 进 程 的 每 列 进行 矩阵 8 的 块 的 多 对 多 广播 操作 。 在 已, 得 到 4,， 和 Bij (0 <k 
“Jp-1) 后 ， 再 执行 算法 8-3 中 第 7 和 第 8 行 的 子 矩阵 乘法 和 加 法 运算 。 
性 能 与 可 扩展 性 分 析 本 算法 要 在 各 进程 组 (每 组 Vp 个 进程 ) 中 进行 两 次 多 对 多 广播 步 
最 (每 次 包括 在 进程 格 网 的 所 有 行 和 列 同 时 进行 Vp 次 广播 ) 。 传 输 的 消息 是 包含 P2/p 个 元 素 
的 子 矩 阵 。 从 表 4-1 可 知 ， 总 通信 时 间 是 2(, log(Yp)+t,(m?1p)(VYp -D) 。 通 信步 又 结 束 后 ， 
每 个 进程 计算 子 矩 阵 Cv， 需 要 进行 2/VP)x (na/VP) 子 矩阵 的 Vp 次 乘法 操作 (算法 8-3 中 第 7、 
8 行 ，9 = Vp )。 这 一 过 程 需要 的 总 时 间 为 /px(na/VPp)a = m1/p。 所 以 并 行 运行 时 间 近 似 为 : 
Tp = +logp+ 2 


VP (8-14) 
进程 ~ 时间 积 为 m3 +i,plogp+2t,n?Vp ， 当 p = O(02) 时 ， 并 行 算法 是 成 本 最 优 的 。 

由 + 和 ts 导致 的 等 效率 函数 分 别 是 #P log p 和 8(4, )?p?*。 因 此 ， 由 通信 开销 导致 的 整体 等 
效率 孙 数 为 @(p”)。 这 个 算法 使 用 的 最 大 进程 数目 为 8?; 所 以 p < ze 或 好 > pa2。 从 而 由 并 发 导 
致 的 等 效率 疫 数 也 是 8B(p”?)。 

本 算法 的 一 个 显著 缺陷 是 它 对 内 存 需求 过 大 。 在 通信 阶段 的 最 后 ， 每 个 进程 有 和 矩阵 4 和 有 
的 Vp 个 块 ， 每 个 块 需要 的 内 存 为 G(n2/p)， 每 个 进程 需要 的 内 存 为 8(n?/ Vp )。 全 部 进程 需要 
的 总 内 存 为 6(n? VYp )， 这 是 串 行 算法 所 需 内 存 的 Vp 倍 。 

8.2.2 Cannon 算 法 

Cannon 算 法 是 8.2.1 汕 提出 的 简单 并 行 算法 的 内 存 高 效 版 本 。 为 了 研究 这 个 算法 ， 我 们 再 
把 矩阵 4 和 8 划分 成 p 个 方块 ， 进 程 的 标号 从 Po 到 PF ， 并 在 最 初 把 子 和 矩阵 4, 和 8， 分 配给 
进程 P;, 。 虽 然 第 ; 行 的 每 个 进程 需要 全 部 Vp 个 子 矩 阵 4ix(0<KK<VP )， 但 我 们 还 是 能 调度 第 
i 行 Vp 个 进程 的 计算 ， 使 得 每 个 进程 在 任何 时 刻 都 使 用 不 同 的 4， 。 每 完成 一 次 子 和 矩阵 乘法 ， 





这 些 块 在 各 进程 之 间 被 轮流 使 用 ， 使 得 每 次 轮流 之 后 每 个 进程 都 可 以 得 到 新 的 4x 。 对 列 使 用 

问 样 的 调度 ， 则 在 任何 时 刻 ， 任 何 进 程 至 多 拥有 每 个 矩阵 的 一 个 块 ， 在 所 有 的 进程 中 ， 该 算 

四 要 内 存量 为 86(n?)。Cannon 算 法 正 是 基于 这 个 思想 。 图 8-3 说 明 Cannon 算 法 中 不 同 进 
上 和子 第 阵 乘 法 的 调度 过 程 , :其 中 有 16 个 进程 。 





e) 第 -次 移动 后 的 子 矩阵 位 置 f) 第 一 次 移动 后 的 子 矩 阵 位置 


图 8-3 Cannon 算 法 在 16 个 进程 上 的 通信 步 又 
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在 算法 的 第 一 个 通信 步骤 中 ， 用 这 样 一 种 方式 排列 矩阵 4 和 8 的 块 ， 使 得 每 个 进程 对 其 本 地 
子 矩 阵 相 乘 。 如 图 8-3a 所 示 ， 排 列 年 阵 4 和 8 的 块 时 ， 用 ; 步 把 矩阵 4 的 所 有 子 和 矩阵 4, 都 移 到 左边 
( 带 回 绕 )。 与 之 类 似 ， 用 j 步 把 矩阵 8 的 所 有 子 和 矩阵 B;; 都 移 到 上 边 ( 带 回 绕 )。 进 程 的 每 行 和 每 
列 都 要 进行 循环 移 位 操作 ( 见 4.6 节 )， 并 且 保持 子 矩 阵 ,wosyz 和 B ,wwos, 在 进程 Pv 中 。 
图 8-3c 显 示 初 始 排列 后 的 矩阵 4 和 8 的 块 ， 此 时 每 个 进程 可 以 进行 第 一 次 子 矩 阵 相 乘 运算 。 完 成 
-个子 矩阵 相 乘 步 又 后 ， 和 矩阵 4 的 每 个 块 向 左 移动 一 步 ， 和 矩阵 8 的 每 个 块 向 右 移动 一 步 (也 带 回 
绕 )， 如 图 8-3d 所 示 。 在 进程 P;; 中 一 共 进 行 Vp 次 这 样 的 4x 与 Bu (0 <k < Vp ) 的 相 乘 和 一 步 向 
上 移 位 。 这 就 完成 矩阵 4 和 8 的 乘法 运算 。 

性 能 分 析 “如 图 8-3a 和 b 所 示 ,两 个 矩阵 的 初始 排列 包括 一 次 按 行 和 一 次 按 列 的 循环 移 位 。 
在 其 中 任何 一 次 移 位 中 ， 每 个 块 移动 的 最 大 距离 是 Vp -1， 两 次 移 位 操作 需要 的 总 时 间 为 
2(1; + nza2/p)〈 见 表 4-1)。 本 算法 的 每 个 计算 与 移 位 阶段 中 都 有 Vp 次 单 步 移 位 ， 每 个 单 步 移 
位 需要 的 时 间 为 5 + 内 mp， 因此 ， 算 法 这 一 阶段 两 个 矩阵 的 总 通信 时 间 为 24 + tn2/p) Vp 。 
在 带宽 足够 的 网 络 中 ， 当 p 充 分 大 时 ， 与 计算 和 移 位 阶段 相 比 ， 初 始 排列 的 通信 时 间 可 以 忽略 
不 计 。 
每 个 进程 要 进行 Vp 次 (a/Vp)x(a/\P) 子 矩阵 乘法 运算 。 假 设 每 次 加 法 和 乘法 需要 一 个 
单位 时 间 ， 每 个 进程 花 在 计算 中 的 总 时 间 为 2p。 因 此 ， 本 算法 需要 的 总 并 行 运行 时 间 大 约 为 

3 2 
Tp = +2VPs 二 2 -万 [8.15) 

Cannon 算 法 的 成 本 最 优 条 件 与 8.2.1 节 提出 的 简单 算法 中 的 条 件 相同 。 与 简单 算法 一 样 ， 

Cannon 算 法 的 等 效率 函数 是 8@(p”?)。 


8.2.3 DNS 算 法 


到 目前 为 止 提出 的 矩阵 相 乘 算法 中 ， 都 对 输入 和 输出 矩阵 进行 块 二 维 划分 ， 而 且 对 nxn 
和 矩阵 使 用 的 进程 数 不 超 过 w?。 由 于 在 串 行 算法 中 有 B(n3) 次 操作 ， 所 以 这 些 算法 的 并 行 运算 时 
间 为 Q(n)。 我 们 现在 给 出 一 种 并 行 算法 ， 它 基于 划分 中 间 数 据 ， 最 多 能 够 使 用 n; 个 进程 ， 通 
过 使 用 QR(n*log 站 个 进程 ， 执 行 矩 阵 乘积 所 需 的 时 间 为 B(log n)。 这 个 算法 称 为 DNS 算 法 ， 
为 它 是 由 Dekel、Nassimi 和 Sahni 提 出 的 。 

我 们 首先 介绍 基本 思想 ， 不 考虑 进程 间 的 通信 。 假 设 可 以 用 ;个 进程 计算 两 个 n x mn 枪 阵 
的 乘积 。 这 些 进程 排列 在 一 个 三 维 n x n x n 逻 辑 阵 列 中 。 由 于 矩阵 相 乘 算法 要 执行 n3 次 标量 乘 
法 ， 每 个 进程 都 安排 一 次 标量 乘法 。 根 据 进程 在 阵列 中 的 位 置 对 它们 标号 ， 分 配 进程 P, , (0 < 
ij 上 < nn) 执 行 4[i,k] x B[ky ] 的 乘法 运算 。 每 个 进程 完成 一 个 乘法 运算 步骤 后 ， 再 将 各 个 进程 
Pijo, Piji, ”3 Pijn-! 的 内 容 相 加 ， 得 到 Cliy ]。 所 有 Cliy ] 的 求 和 运算 可 以 同时 在 log n 个 步 又 
中 进行 。 因 此 ， 乘 法 运算 需要 一 个 步骤 ; 而 求 和 运算 需要 log nn 个 步骤 ; 也 就 是 说 ， 用 这 个 算 
法 计算 n x "矩阵 的 乘积 所 需 时 间 为 6(log 门 。 

基于 这 个 思想 ， 我 们 现在 来 描述 矩阵 乘法 的 一 个 并 行 实现 。 如 图 8-4 所 示 ， 可 以 把 进程 排 
列 设想 成 4 个 平面 ， 每 个 平面 n x n 个 进程 。 每 个 平面 对 应 k 的 一 个 不 同 值 。 初 始 时 ， 如 图 8-4a 
所 示 ， 和 矩阵 分 布 在 三 维 进程 阵列 的 底部 与 上 = 0 相对 应 的 mr? 个 进程 中 。 最 初 进程 Po 拥有 A[ij 和 
Bliy]. 
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c) 没 / 轴 广 播 A[i,j ] 后 的 分 布 d) 矩阵 8 中 对 应 的 分 布 


图 8-4 在 64 个 进程 上 的 4 x 4 矩阵 4 和 B 的 乘法 中 DNS 算 法 的 
通信 步骤 。c) 中 带 阴影 的 进程 存储 4 的 第 一 行 元 素 ， 
d) 中 带 阴影 的 进程 存储 8 的 第 一 列 元 素 


进程 Pj 的 纵向 列 计算 4[i,*] 行 与 B[* 骨 列 的 点 积 。 因 此 ，4 的 行 与 8 的 列 需要 进行 相应 的 移 
动 ， 保 证 进程 Pij. 的 每 个 纵向 列 有 A[i,*] 行 与 B[*, 有 四 列 。 准 确 地 说 ， 进 程 Pijs 应 有 A[i,k] 与 B[kyj]。 
图 8-4a ~ c 显 示 各 个 进程 中 分 布 的 矩阵 4 的 元 素 的 通信 模式 。 首 先 ， 把 4 的 每 一 列 移 到 不 同 
的 平面 ， 保 证 第 j 列 占据 对 应 于 k = j 的 平面 中 的 同样 位 置 ， 就 像 最 初 在 对 应 于 k = 0 的 平面 中 所 
做 的 那样 。 图 8-4b 显 示 把 4[iJ] 从 Pijo 移动 到 Pi,, 后 矩阵 4 的 分 布 。 通 过 沿 着 j 轴 的 一 对 多 广播 ， 
抵 阵 A 的 各 列 在 相应 的 平面 上 被 复制 次 。 这 一 步 又 的 结果 如 图 8-4c 所 示 ， 其 中 n 个 进程 Pjo， 
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Piji, 四 户 -1 都 从 Pi ; ;处 得 到 A[i,， 月 的 一 个 副本 。 此 时 ， P, ， * 的 每 个 纵 问 列 有 了 4 *] 行 。 
准确 地 说 ， 进 程 Pj 有 了 A[i, 如 。 z 

甜 阵 8B 的 通信 步骤 是 类 似 的， 但 是 进程 下 标 i 和 /的 作用 相互 对 调 。 在 开始 的 一 对 一 通信 步 
嗓 ， 把 B{i, 月 从 Pi jo 移动 到 P,;， ’ 然后 从 Pi ; ;广播 到 Po 1 Pi.i.; » 9, Pai.i.) o 图 8-4d 表 示 沿 i 
轴 进 行 这 个 一 对 多 广播 后 矩阵 8 的 分 布 。 至 此 ， 进 程 Pi ; ,的 每 个 纵向 列 有 了 8[*, 刀 列 。 现 在 进 
程 Pi ji 除 A[Li, 之 外 还 拥有 BIK, 岂 。 

住 这 些 通信 步骤 之 后 ，A[i, 人 与 BIk, 四 在 进程 P; ; ; 中 相 乘 。 现 在 通过 沿 k 轴 的 多 对 一 归 约 ， 
可 以 得 到 乘积 秆 阵 的 所 有 元 素 C[, j]。 在 这 个 步骤 中 ， 进程 已。 累加 来 自 进程 PP ，,， 人 Pi ol 
的 乘积 结果 。 图 8-4 表 示 的 是 求 C[0, 0] 的 这 一 步 难 。 

DNS 算 法 中 有 三 个 主要 的 通信 步骤 ，1. 把 4 的 列 和 8 的 行 移动 到 它们 各 自 的 平面 ，2. 沿 4 
的 ) 轴 和 8B 的; 轴 执行 一 对 多 传播 ，3. 沿 k 轴 进行 多 对 一 归 约 。 所 有 这 些 操作 都 在 各 进程 组 (每 组 
?个 进程 ) 中 进行 ， 所 需 时 间 为 B(log n)。 因 此 ， 用 DNS 算 法 对 :个 进程 进行 两 个 n x mn 矩阵 相 
乘 所 需 的 并 行 运行 时 间 为 Bliog n)。 


进程 数 少 于 ns 的 DNS 算法 

于 个 进程 的 DNS 算法 不 是 成 本 最 优 的 ， 因 为 它 的 进程 -时 间 乘 积 B(malog n) 超 过 和 矩阵 乘法 
的 串 行 复杂 度 @(m)。 现 在 我 们 给 出 这 个 算法 的 成 本 最 优 的 版 本 ， 其 中 使 用 的 进程 数 少 于 个 。 
习题 8.6 中 提出 使 用 进程 少 于 二 个 的 DNS 算法 的 另 一 个 变 体 。. 

对 于 茶 个 9 < n， 假 设 p 是 进程 数 ，p = gq;。 为 了 实现 DNS 算 法 ， 我 们 把 两 个 矩阵 划分 成 
(n/q) x (n/q) 的 块 。 从 而 每 个 矩阵 可 以 看 成 是 由 这 些 块 排 成 的 g x q 二 维 方 了 泗 。 这 个 算法 在 gq 个 
进程 上 的 实现 与 在 ”个 进程 上 的 实现 非常 相似 。 唯 一 的 不 同 是 现在 对 块 操作 而 不 是 对 矩阵 的 
单个 元 素 操 作 。 由 于 1 < q < n， 进 程 数 可 在 1 与 n 之 间 变 化 。 

性 能 分 析 “第 一 个 通信 步 又 是 矩阵 4 和 有 的 一 对 一 通信 ， 每 个 矩阵 需要 的 时 间 为 上 + 妃 
(n/q)。 第 二 个 通信 步骤 是 矩阵 4 和 B 的 一 对 多 通信 ， 每 个 矩阵 需要 的 时 间 为 1, log g + 1, (n/g》 
log 9。 最 后 的 通信 步骤 是 矩阵 C 的 一 次 多 对 一 归 约 ， 需 要 的 时 间 为 1; log g + t,(n/qg)ilog g。 每 
个 进程 中 (n/q) x (n/q) 子 祭 阵 相 乘 需要 的 时 间 为 (n/9》”。 第 一 步 矩 阵 4 和 8 一 对 一 通信 的 时 间 可 以 
忽略 ， 因 为 它 远 远 小 于 一 对 多 通信 的 时 间 和 多 对 一 归 约 的 时 间 。 在 最 后 的 多 对 一 归 约 步 又 中 ， 
加 法 的 计算 时 间 也 可 以 忽略 ， 因 为 它 的 数量 级 小 于 子 矩 阵 相 乘 时 间 的 数量 级 。 用 这 些 假设 ， 
可 得 如 下 关于 DNS 算法 并 行 运行 时 间 的 近似 表达 式 : 


ny n\ 
re~ (2) + 31 log gq + 3tw (2) loga 


由 于 p = q*， 我 们 得 到 
n3 nz2 
Tp=—+tl wy 
一 万 pf ‘ogp z (8-16) 
并 行 算法 的 全 部 成 本 为 n? + i,plog p + 1, np'?log p。 等 效率 图 数 为 B(p(log p)3)。 当 1 = 
2(p(log P) ) 或 者 p = O(nY(log 站 ?时 ， 本 算法 是 成 本 最 优 的 。 
8.3 线性 方程 组 求解 


这 一 市 我 们 讨论 如 何 求解 如 下 形式 的 线性 方程 组 : 
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列 笨 息 阵 莫 法 
a0,0X0 + a0.1x! + :+ don-lXn-1 = bo 
a1.0X0 + Qal.1X!l + -二 dln-lXn-1 = bi 
An-1,0X0 + Cr-lIXL + … + Anin_iXn-1l= Pn-_i 


用 矩阵 表示 法 这 个 方程 组 可 以 写成 4x = bp。 此 处 系数 矩阵 4 是 稠密 的 ，A[ijj] = av ，b 是 
nx 1 向 量 [bo, bi,… ,bw-1]'，x 是 n x 1 未 知 解 向 量 [Lx , xi ,，… ,Xn_1] 7 下 面 用 A[ij 让 表示 a;; ， 用 xf] 
表示 x o 

解 方程 组 4x = b 通 常 分 两 个 阶段 。 首 先 ， 用 一 些 代数 运算 把 4x = b 化 简 成 上 三 角形 式 的 方 
程 组 


X0 + UoOlX]l + U0.2X2 + ，， + Upn-ilXn-_] = yo 
Xl 十 Ul2X2 + …， + Uln—lXn-l = y1 
Xn—l = Yn-l 


把 这 个 方程 组 写成 Ux = y， 其 中 U 是 单位 上 三 角 和 矩阵 ， 即 主 对 角 线 元 素 为 1， 而 所 有 对 角 
线 下 的 元 素 为 0。 在 形式 上 ，i < j 时 UT[iy] = 0， 否 则 U[iy] = uj; 。 此 外 UV[ii] = 1 (0<i< 站。 第 
二 阶段 ， 使 用 回 代 法 ( 见 8.3.3 节 )， 按 照相 反 的 次 序 从 x[n--1] 到 x[0] ， 求 方程 Ux = y 的 解 。 

我 们 将 在 8.3.1 和 8.3.2 节 中 讨论 用 上 三 角 化 的 经 典 高 斯 消 元 法 的 并 行 公 式 。 在 8.3.1 节 介绍 
直接 高 斯 消 元 算法 时 ,假设 系数 矩阵 是 非 奇 异 的 ， 并 且 用 数值 稳定 的 算法 进行 行列 的 置换 。 
企 8.3.2 节 讨论 方程 组 稳定 数值 解 的 情形 ， 在 高 斯 消 元 算法 的 执行 过 程 中 ， 和 需要 对 矩阵 的 列 进 
行 置换 ，。 

虽然 我 们 只 讨论 上 三 角 化 的 高 斯 消 元 法 ,但 也 可 用 类 似 的 方法 把 矩阵 A 分 解 成 下 三 角 和 矩阵 
L 和 单位 上 三 角 和 矩阵 U 的 乘积 ， 使 得 4 = L x U。 这 种 分 解 通 常 称 为 LU 分 解 。 在 求解 具有 同样 右 
端 项 的 多 个 线性 方程 组 时 ， 进 行 LU 分 解 是 非常 有 用 的 。 算 法 3.3 给 出 了 一 个 面向 列 的 LU 分 解 


8.3.1 简单 高 斯 消 元 算法 


是 行 的 高 斯 消 元 算法 有 三 个 瞩 套 循环 。 根 据 循环 的 排列 顺序 ， 算 法 还 有 几 种 变 体 。 算 法 
8-4 是 高 斯 消 元 的 一 个 变 体 。 本 节余 下 部 分 中 将 用 来 进行 并 行 实现 。 这 个 算法 程序 把 线性 方程 
组 4x = b 变 成 主 对 角 线 为 1 的 上 三 角 方 程 组 Ux = y。 我 们 假设 矩阵 U 与 4 共享 存储 ， 并 且 和 覆盖 A 
的 上 二 角 部 分 。 算 法 8-4 第 6 行 计算 的 A[ij] 实 际 是 U[iy]。 类 似 地 ,第 8 行 4[KA] = 1 实际 是 U[k,。 
第 6、7 行 中 ， 用 A[k 大 ] 作 除数 时 ， 算 法 8-4 假 设 A[K,K] *0。 

在 这 一 市 ， 我 们 仅 讨论 在 算法 8-4 中 对 矩阵 4 的 操作 。 程序 第 7 行 和 第 13 行 关于 向 量 b 的 运 
算 很 简单 ， 所 以 下 面 省 略 这 些 步 骤 。 如 果 不 执 行 第 ?7、8、13、14 行 的 步骤 ， 则 算法 8-4 进 行 关 
于 4 的 LU 分 解 ， 将 4 分 成 乘积 L x U。 在 过 程 结束 后 ，L 存 储 在 4 的 下 三 角 部 分 ， 而 U 占 据 4 的 主 
对 角 线 以 上 部 分 。 

在 4 从 0 到 ”1 变化 时 ， 运 用 高 斯 消 元 过 程 系统 地 将 变 元 x[ 妇 从 方程 E +1 到 方程 -1 中 消去 ， 
从 而 把 系数 矩阵 4 变 成 上 三 角 和 矩阵 。 如 算法 8-4 所 示 ， 在 外 县 循环 的 第 k 次 迭代 (从 第 3 行 开始 ) 
中 ， 从 第 k +1 到 第 n-1 的 每 个 方程 都 碱 去 第 k 个 方程 的 适当 倍数 (循环 从 第 9 行 开始 )。 第 k 个 方 


Cy 


0 


程 (或 者 矩阵 4 的 第 k 行 ) 的 倍数 选择 要 保证 从 第 上 +1 到 第 2-1 的 每 个 方程 中 第 k 个 系数 为 零 ， 
从 而 从 这 些 方程 中 消去 x[ 操 。 在 外 层 循 环 的 第 上 次 迭 代 中 ， 高 斯 消 元 过 程 的 典型 计算 如 图 8-5 所 
未 。 外 层 循 环 的 第 k 次 迭代 不 包括 第 1 行 到 第 k 行 和 第 1 列 到 第 k 列 的 任何 计算 。 因 此 ， 在 这 一 阶 
段 ， 仅 有 A 的 右 下 方 的 (n-k) x (2- 朋 子 和 矩阵 (图 8-5 的 阴影 部 分 ) 参与 运算 过 程 。 


算法 8-4 ”把 线性 方程 组 Ax = b 变 成 单位 上 三 角 方程 组 Ux = y 的 串 行 高 斯 消 元 算法 。 和 矩阵 U 占 用 
A 的 上 三 角 部 分 。 当 A [k,k ] 在 第 6、7 行 中 用 作 除 数 时 ， 算 法 假设 A [k,k ]#0 


l. procedure GAUSSIAN ELIMINATION (4, b, y) 

2. 

人 fork:=0ton—1do /* Outer loop */ 

4. begin 

5, for j := 上 十 1to7 一 1do 

本 A[k, j] := A[k, j]/Al[k, k]; /* Division step */ 
7. y[k] := b[K]/ ALk, k]; 

8. A |] := 1; 

9. fori:=k++lton—l1do 

10. begin 

,内 : for j := 十 1to7 一 1do 

12. Ali, j] := A[i, j] ~ Ali, k] x A[k, j]; /* Elimination step */ 
LS bl[i] := bli] ~ Ali, Kk] x yl[k]; 

14. Ali, &k] := 0; 

15. endfor; /* Line 9 */ 

16. endfor; /* Line 3 */ 


17. end GAUSSIAN_ELIMINATION 





-二 


不 参与 计算 部 分 


i Alk,j] := 4[K, J/ALk, k] . 


| ALi,j] := Ali,j]-A[i, k] x A[k,j] 





图 8-5 高 斯 消 元 法 中 的 一 个 典型 计算 


高 斯 消 元 法 大 约 包括 n3/2 次 除法 运算 (第 6 行 ) 和 (m3/3)-(n3/2) 次 减法 和 乘法 运算 (第 12 行 )。 


在 本 市 ， 我们 假设 每 次 标量 运算 需要 一 个 单位 上 时间。 根据 这 个 假设 ,高 斯 消 元 过 程 的 串 行 运 
行 时 间 大 约 为 2n3/3 (对 于 大 的 n)， 即 
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1. 用 一 维 划分 的 并 行 实现 

现在 考虑 算法 8-4 的 并 行 实现 ， 其 中 系数 矩阵 在 进程 中 间 进 行 按 行 一 维 划分 。 算 法 采用 一 
维 按 列 划分 的 并 行 实现 与 之 类 似 ， 其 实现 细节 可 以 根据 按 行 一 维 划 分 的 实现 过 程 确定 (习题 
8.8 和 8.9 ) 。 

先 考虑 每 个 进程 分 配 一 行 的 情形 ，n x n 系 数 矩 阵 A 按 照 从 Po 到 P,-! 的 n 个 进程 中 的 行 划 分 。 
在 这 个 映射 中 ， 进 程 P; 最 初 存储 的 元 素 为 4[ij]，0<j < n。 图 8-6 给 出 n = 8 时 这 种 从 矩阵 到 进 
程 的 映射 。 图 中 也 说 明 k = 3 时 外 层 循 环 和 迭代 中 的 通信 与 计算 情况 。 


a) 计算 : 


(4A[K7 ]:=4[E7 J/A[KK], k<j<n 
(ii) A[k,K] := 1 










0 






b) 计算 : 
行 4[k;*] 的 一 对 多 广播 


1 
pe 
















(4,3)V(4,4)V(4,5)V(4,6)V(4,7) 


(5,3)V(5,4)V(5,5)V(5,6)V(5,7) 


(6,3)V(6,4)V(6,5)V(6,6)V(6.7) 





(7,3)V(7,4) V07,5)Y(7,6)V(7,7) 


(0,1) (0;2) (0,3) (0,4) (0,5) (0,6) (0,7) 
0 (1,2) (1,3) (1,4) (1,5) (1,6) (1,7) 







l : 让 和 
1 
2.6) (2,7 
0 0 1 (2,3) (24) (2,5) (2,6) (2,7) c) 计算 : 
0 0 0 1 (4 (3,5) (3,6) (3,7) or Be : ; 
(DA ] : = A[ij]-—A[li,k] x A[k, ], 
0 


0 0 人 (4,6) (7 k<i<nflk<j<n 
ry (ii) A[ik] :=0, k<i<n 
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图 8-6 在 8 个 进程 中 按 行 划分 的 8 x 8 矩阵 中 ， 对 应 于 k = 3 迭代 的 高 斯 消 元 步 又 
算法 8-4 和 图 8-5 表 示 在 第 k 次 迭代 开始 时 ，A[k, 有 除 A[k,k +1]，A[k,k + 2]，…，A[k,n 一 1] 的 
情形 。 参 与 运算 的 所 有 元 素 (由 图 8-6a 阴 影 部 分 所 示 ) 属于 同一 个 进程 。 所 以 这 个 步骤 不 需 
要 任何 通信 。 在 算法 的 第 二 个 计算 步骤 (第 12 行 的 消 元 步骤 ) 中 ， 撼 阵 参与 计算 部 分 的 所 有 
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其 他 行 都 要 使 用 第 k 行 修改 后 (经 过 际 法 运算 ) 的 元 素 。 如 图 8-6b 所 示 ， 这 个 过 程 需要 一 次 从 
第 Kk 行 参与 计算 部 分 到 存储 k +1 至 n-1 行 的 各 个 进程 的 一 对 多 广播 。 最 后 ， 如 图 8-6c 中 的 阴影 
部 分 所 示 ， 在 从 阵 剩 余 的 参与 计算 部 分 ， 计 算 A[iy] : = A[iy]-A[ik] x A[kJj]。 

与 图 8-6a 对 应 的 第 k 次 狗 代 中 的 计算 步骤 需要 在 进程 户 中 进行 9~k-1 次 除法 运算 。 类 似 地 ， 
图 8-6c 中 的 计算 步骤 包括 在 所 有 的 进程 P; (kK < i < n) 的 第 k 次 迭代 中 进行 n-k-1 次 减法 和 乘法 运 
算 。 假 设 一 次 单独 的 算术 运算 需要 一 个 单位 时 间 ， 则 第 Ki 次 迭 代 中 需要 的 计算 时 间 为 3(n-k-1)。 
注意 ， 当 Pi 进行 除法 运算 时 ， 其 他 p-1 个 进程 是 空 闪 的 ， 当 进程 Pi wl，Pi 4+，…，P,! 执 行 消 元 
操作 步骤 时 ， 进 程 P。，P!，…，Pi 是 空 闪 的 。 因 此 在 高 斯 消 元 法 的 并 行 实现 中 ， 图 8-6a 和 c 显 
示 的 计算 步骤 需要 的 总 时 间 为 3》， (nk -D)=3n(n-1)/2.。 

图 8-6b 中 的 通信 步骤 所 需 的 时 间 为 (f; + 4,(n-k-1))log 呈 ( 见 表 4-1)。 因 此 ， 全 部 选 代 过 程 


所 需 的 总 时 间 为 Dil +t(n-k-D))logn ， 等 于 [in+t,(n(n~])/2)Jlogn 。 这 个 算法 的 整体 


并 行 运 行 时 间 为 
3 1 


由 十 进程 数 为 x， 由 (8-18) 式 中 与 相关 的 项 导致 的 成 本 ( 即 进程 -时 间 乘 积 ) 为 B(malog n)。 
这 个 成 本 渐 近 地 高 于 该 算法 的 串 行 运行 时 间 (公式 (8-17))， 因 此 这 个 并 行 实现 不 是 成 本 最 优 
流水 线 通信 与 计算 ”我们 现在 给 出 一 个 高 斯 消 元 法 的 并 行 实现 ， 它 在 "个 进程 上 是 成 本 最 
优 的 。 

在 刚 讨论 的 并 行 高 斯 消 元 算法 中 ， 算 法 8-4 的 外 层 循 环 中 的 an 个 迭代 是 顺序 执行 的 。 在 住 


. 何 给 定时 间 ， 所 有 的 进程 都 在 相同 的 迭代 中 运行 。 只 有 当 第 k 次 迭代 的 所 有 通信 与 计算 全 部 完 


成 后 ， 才 能 开始 第 上 +1 次 迭代 。 在 进程 异步 工作 的 条 件 下 ， 可 以 对 算法 的 性 能 进行 重大 改 
进 ; 也 就 是 说 ， 任 何 进程 不 必 等 待 其 他 进程 完成 迭代 就 可 以 进行 下 一 步 和 迭代 。 我 们 把 它 称 为 
高 斯 异步 消 元 法 或 者 高 斯 消 元 流水 线 法 。 图 8- 7 说 明 算 法 8- 4 的 流水 线 算法 ， 其 中 5 x 5 和 矩阵 沿 
着 行 划分 成 5 个 进程 的 逻辑 线性 阵列 。 

在 算法 8-4 的 第 k 次 选 代 中 ， 进 程 己 把 什 阵 第 k 行 的 部 分 广播 到 进程 P, ,1，P, ,，，…， Pi 
( 见 图 8-6b)。 假 设 这 些 进程 形成 一 个 逻辑 线性 阵列 ，P; ,是 第 一 个 从 进程 P, 接收 第 上 行 的 进程 ， 
则 Pi ,必须 把 收 到 的 数据 转发 到 Pi ,,。 但 是 ， 把 第 k 行 转发 到 Pi ,, 之 后 ， 进 程 Pi ,不 必 符 待 吉 到 
P-! 的 所 有 进程 收 到 第 K 行 后 再 执行 消 元 步骤 (第 12 行 )。 类 似 地 ， 只 要 已 ,s 把 第 k 行 数据 传送 
到 Pi :3 后 就 能 开始 自己 的 计算 ， 以 此 类 推 。 同 时 ， 完 成 第 次 迭代 的 计算 后 ， 进 程 P, ,可 以 执 
行 除法 步 嗓 (第 6 行 )， 并 且 通 过 把 第 上 +1 行 发 送 到 进程 已 ,开始 这 一 行 的 广播 。 

在 流水 线 高 斯 消 元 法 中 ,每 个 进程 独立 地 重复 执行 下 述 操作 步骤 ， 直 到 n 个 迭代 全 部 完成 。 
为 简单 起 见 ， 我 们 假设 步骤 1) 与 步骤 2) 需要 相同 的 时 间 (这 样 的 假设 不 影响 分 析 ): 

1) 如 果 一 个 进程 有 发 送 给 其 他 进程 的 数据 ， 就 把 那些 数据 发 送 给 相关 的 进程 。 

2) 如 果 一 个 进程 能 够 使 用 已 经 有 的 数据 进行 一 些 计算 ， 就 进行 这 种 计算 ， 

3) 否则 ， 进 程 等 待 接收 数据 ， 用 于 进行 上 述 操作 。 

图 8- 7 显示 在 5 个 进程 中 ， 对 5 x 5 矩阵 按 行 划分 的 高 斯 消 元 法 流水 线 并 行 执行 的 16 个 步 双 。 
如 图 8-7a 所 示 ， 第 一 步 是 在 进程 Po 执行 第 0 行 的 除法 运算 。 然 后 把 修正 后 的 第 0 行 送 到 进程 P， 
(图 8-7b)， 进 程 P 再 把 它 传输 到 进程 P，( 图 8-7c)。 这 样 进程 P1 可 以 独立 地 使 用 第 0 行 执行 消 元 
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步骤 (图 8-7d)。 下 一 步 进 程 P, 使 用 第 0 行 执行 消 元 步骤 (图 8-7e)。 同 时 ， 已 经 完成 第 0 次 迭 代 
的 进程 已 开始 它 的 第 1 次 迭代 的 除法 步 又。 在 任何 给 定 的 时 间 ， 可 以 在 不 同 的 进程 中 执行 相同 
迭代 的 不 同 阶段 。 例 如 ， 在 图 8-7h 中 ， 当 进程 P 和 进程 Ps 进行 第 1 次 迭代 的 通信 时 ， 进 程 P; 执 
行 同一 次 迭代 的 消 元 步骤 。 此 外 , 在 不 同 的 进程 中 可 以 同时 执行 不 止 一 次 迭代 。 例 如 ， 在 图 
8-7i 中 ， 当 进程 P 进 行 第 1 次 迭代 的 消 元 步骤 时 ， 进 程 P, 执 行 第 2 次 迭代 的 除法 步骤 。 
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图 8-7 用 每 个 进程 一 行 划 分 的 5 x 5 矩阵 的 流水 线 高 斯 消 元 法 
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在 同步 算法 中 ， 所 有 的 进程 在 同一 时 间 只 能 执行 同一 迭代 ， 而 高 斯 异步 消 元 法 或 者 流水 
线 高 斯 消 元 法 与 此 不 同 ， 它 是 成 本 最 优 的 。 如 图 8-7 所 示 ， 算 法 8-4 中 外 层 循环 的 连续 迭代 的 启 
动 由 数目 固定 的 操作 步 双 分开。 一 共有 n 个 这 样 的 迭代 被 启动 。 最 后 的 迭代 只 改变 系数 斥 阵 的 
右 下 角 元 素 ; 因此 ， 在 迭代 启动 以 后 ,算法 在 固定 的 时 间 内 完成 。 所 以 整个 流水 线 过 程 的 步 
又 总 数 为 @() 〈 习 题 8.7)。 在 任何 步骤 中 ， 要 么 有 O(CD) 个 元 素 在 直接 连接 的 进程 之 间 通 信 ， 要 
么 有 一 行 的 O(n) 个 元 素 在 进行 除法 运算 ,或 有 一 行 的 O(n) 个 元 素 在 执行 消 元 。 每 个 这 样 的 过 
程 需要 的 时 间 为 O(n)。 因 此 ， 每 个 这 样 完 整 的 过 程 由 8B(n) 个 复杂 度 为 0(n) 的 步骤 组 成 ， 它 的 
并 行 运行 时 间 为 O(n*)。 由 于 使 用 n 个 进程 ， 成 本 是 O(m)， 与 高 斯 消 元 法 的 品行 复杂 度 的 数量 
级 相同 。 因 此 ， 用 系数 矩阵 一 维 划分 的 流水 线 版 本 的 并 行 高 斯 消 元 法 是 成 本 最 优 的。 

进程 数 少 于 n 的 一 维 块 划 分 ”前面 并 行 高 斯 消 元 法 的 流水 线 实现 可 以 方便 地 改 为 用 于 n > p 
的 情况 。 考 虑 在 个 进程 中 划分 的 = x n 矩 隆 (p < n)， 每 个 进程 分 配 n/p 个 相 邻 的 行 。 图 8-8 说 明 
在 用 这 样 一 种 映射 的 典型 高 斯 消 元 法 迭代 中 的 通信 。 如 图 所 示 ， 算 法 的 第 次 迭代 需要 把 第 
行 的 参与 部 分 送 到 存储 第 k +1,… , n-1 行 的 进程 。 
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图 8-8 对 于 用 块 一 维 划分 的 分 布 在 4 个 进程 间 的 8 x 8 和 矩阵 ， 
对 应 于 k = 3 的 高 斯 销 元 迭代 中 的 通信 

图 8-9a 表 示 使 用 一 维 块 划分 时 ， 一 个 所 有 行 都 属于 矩阵 参与 部 分 的 进程 ， 在 第 k 次 选 代 的 
消 元 步骤 中 执行 (n-k-1)n/p 次 乘法 和 减法 运算 。 注 意 ， 在 最 后 第 (n/p)-1 次 迭代 中 ， 没 有 进程 
包含 所 有 参与 运算 的 行 ， 但 是 我 们 忽略 这 个 异常 情况 。 如 果 使 用 这 个 算法 的 流水 线 版 本 ， 则 
第 k 次 迭代 中 的 最 大 负载 进程 的 算术 运算 次 数 (2(n-k-1)/p)， 要 远大 于 同一 次 迭代 中 一 个 进程 
的 通信 字数 (n-k-1)。 因 此 ， 对 相对 于 p 充 分 大 的 x， 在 每 次 迭代 中 计算 相对 于 通信 来 说 是 主要 
的 。 假 设 每 次 标量 的 乘法 与 减法 运算 需要 一 个 单位 时 间 ， 那 么 这 个 算法 总 的 并 行 运行 时 间 
(不 考虑 通信 开销 ) 为 2(n1p)3"(n-k-1) ， 近 似 等 于 np。 

即使 不 考虑 该 算法 的 通信 成 本 ， 其 进程 时 间 乘积 也 是 nw*?。 因 此 ， 并 行 算法 的 成 本 高 于 申 行 
运行 时 间 (公式 (8-17))， 为 它 的 3/2 倍 。 对 于 一 维 块 划分 ， 高 斯 消 元 法 的 这 种 低 效率 是 由 负载 
分 配 不 平衡 造成 的 进程 空闲 引起 的 。 如 图 8-9a 所 示 ， 对 于 8 x 8 矩阵 和 4 个 进程 ， 在 对 应 于 k = 3 
的 选 代 〈 在 算法 8-4 的 外 部 循环 ) 中 ， 一 个 进程 完全 空闲 ， 一 个 进程 部 分 空闲 ， 只 有 两 个 进程 
在 满 负荷 工作 。 在 外 层 循环 的 迭代 次 数 完成 一 半 时 ， 仅 仅 有 一 半 的 进程 在 工作 。 进 程 空闲 使 
并 行 算法 比 串 行 算法 的 成 本 更 大 。 

如 果 在 使 用 图 8-9b 所 示 的 循环 一 维 映射 的 进程 中 划分 矩阵 ， 就 可 以 缓解 这 个 问题 。 使 用 
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循环 一 维 划 分 ， 在 任何 迭代 中 ， 最 大 与 最 小 负载 进程 的 计算 负载 量 最 多 相差 一 行 ( 即 算术 运 
算 量 为 0(n))。 由 于 有 nn 次 迭代 , 使 用 一 维 循环 映射 时 ， ed oe pe a en 
而 使 用 块 映射 时 的 累积 开销 为 98(n”) (习题 8.12)。 
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b) 循环 一 维 映射 


图 8-9 在 k= 3 的 高 斯 消 元 迭代 中 ， 对 4 个 进程 的 8 x 8 和 扼 阵 使 用 块 
和 循环 一 维 划 分 时 不 同 进程 上 的 计算 负载 


a) 块 一 维 映射 


2. 二 维 划 分 的 并 行 实现 

现在 我 们 来 介绍 算法 8-4 的 并 行 实现 ， 其 中 n x 1 矩阵 4 映射 到 这 样 一 个 己 进程 的 n x 7 进程 
格 网 ， 进 程 最 初 Pj 存储 A[i 让 。 图 8-10 举 例 说明 n = 8 时 与 & = 3 对 应 的 外 层 循 环 迭 代 中 的 计算 与 
通信 步骤 。 算 法 8-4、 图 8-5 和 8-10 表 示 在 外 层 循 环 的 第 上 次 返 代 中 ， 进 程 Pix ,1，Pix ,2，…， 
Pi,_! 需 要 用 A[k,K] 分 别 除 A[K +1]，A[K,k +2]，…，4[Ka=-H。 在 完成 第 6 行 的 除法 后 ， 用 第 大 
行 修改 后 的 元 素 对 矩阵 参与 部 分 的 所 有 其 他 各 行 执行 消 元 步骤 。 类 似 地 ， 用 第 k 列 的 元 素 对 算 
阵 参 与 部 分 的 所 有 其 他 各 列 执行 消 元 步骤 。 如 图 8-10 所 示 ， 第 次 迭代 中 的 通信 和 需要 A[i,k] 沿 第 
i 行进 行 一 对 多 广播 (图 8-10a)，k< i < n，A[k 站 沿 第 j 列 进行 一 对 多 广播 (图 8-10c), k <j <n。 
如 果 这 些 广播 在 所 有 的 进程 上 同步 进行 ， 则 与 一 维 划分 的 情形 一 样 ， 它 也 不 是 成 本 最 优 的 并 
J 公式 (习题 8.11)。 
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图 8-10 对 于 分 配 在 逻辑 二 维 格 网 上 64 个 进程 的 8 x 8 和 矩阵 ， 
与 = 3 对 应 的 高 斯 消 元 法 迭代 的 计算 步骤 
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c) 按 列 广播 A[k, 四 ,kKk<j<n 
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图 8-10 〈 续 ) 


流水 线 通信 与 计算 根据 前 面 对 系数 矩阵 使 用 一 维 划分 进行 高 斯 消 元 的 经 验 ， 我 们 给 出 一 
个 使 用 二 维 划分 算法 的 流水 线 版 本 。 

如 图 8-10 所 示 ， 在 外 层 循环 的 第 k 次 迭代 (算法 8-4 的 3 ~ 16 行 ) 中 ，A[k,k] 从 Pi 向 右 传送 
Hl P, , +1， 到 PL 和 直到 到 达 已 ，，。 把 + 从 PL. 收 到 4[k,k] 后 立即 进行 除法 运算 A[k， 
k +1]/4[k,k]。 在 此 之 前 ， 不 需要 一 直 等 待 4[k,A] 到 达 Pi,!。 类 似 地 ， 随 后 第 k 行 的 各 进程 Pi 也 
在 收 到 A[k,k] 后 立即 进行 除法 运算 。 除 法 运算 之 后 ，A[kyj] 就 可 以 在 第 j 列 中 向 下 通信 。 在 A[kj 
问 下 移动 的 过 程 中 ， 它 经 过 的 每 个 进程 都 可 以 使 用 它 进 行 计 算 。 第 j 列 的 各 进程 不 需要 一 直 等 
待 A[k 放 到达 该 列 的 最 后 一 个 进程 。 因 此 ，、 只 要 A[i, 妈 和 A[kj] 到 达 ，P;, 就 执行 消 元 步 难 A[i,j ] : 
= A[ijj-A[i,k] x A[ky]。 对 于 给 定 的 迭代 ， 一 些 进程 比 其 他 进程 更 旱 开始 进行 运算 ,所 以 它们 
也 很 快 开始 后 继 的 迭代 运算 。 

可 以 用 几 种 方法 以 流水 线 方式 进行 通信 与 计算 。 我 们 提出 一 个 如 图 8-11 所 示 的 方案 。 在 
图 8-11a 中 ， 当 Poo 把 A[0,0] 送 到 Po, 时 ， 在 进程 Poo 开 始 k = 0 的 外 层 循环 迭代 。P, 收 到 4[0.0] 后 
执行 除法 计算 4[0,1] : = 4[0,1]/4[0,0] (图 8-11b)。Po, 把 A[0,0] 转 发 到 P,，， 并 且 把 更 新 后 的 
A[0,1] 向 下 传送 到 Pi， (图 8-11c)。 同 时 Pio 把 A[1,0] 传 送 到 P11,。Pij 收 到 A[0,1] 和 A[1,0] 后 执行 
消 元 步骤 A[1,1] : = A[1,1]-A[1,0] x 4[0,1]， 而 Pu: 收 到 4[0.0] 执 行 除法 步骤 4[0.2] : = 
A[0,2]/4[0,0] (图 8-11d)。 在 这 个 计算 步骤 之 后 ， 另 外 一 组 进程 ( 即 进程 P。，,、P, ,和 P,。) 就 开 
始 通信 (图 8-1le)。 : 

在 特定 的 迭代 过 程 中 ， 所 有 进行 计算 与 通信 的 进程 都 沿 着 从 左下 角 到 右上 角 的 对 角 线 方 
癌 排 列 ( 例 如， 图 8-11le 中 执行 通信 步骤 的 进程 P。p，、Pi, 和 P,。， 图 8-11f 中 执行 计算 步骤 的 进程 
Po3、P1; 和 P21)。 随 着 并 行 算法 的 进行 ， 该 对 角 线 向 着 逻辑 二 维 格 网 的 右 下 角 移 动 。 因 此 在 每 
次 返 代 过 程 中 ， 计 算 与 通信 像 一 条 “前 沿线 ”从 格 网 左上 到 者 下 推进 。 在 对 应 某 个 迭代 的 这 
伴 一 条 线 通 过 一 个 进程 后 ， 进 程 可 以 自由 地 进行 随后 的 和 迭代。 例如， 在 图 8-11g 中 ， 与 5 = 0 对 
应 的 线 通过 Pi 后 ， 它 通过 把 A[1,1] 传 送 到 Ps 启动 对 应 于 k = 1 的 迁 代 。 这 又 启动 对 应 于 = 1 的 
人 线 ， 并且 紧 挨 着 与 k= 0 对 应 的 线 。 类 似 地 ， 与 & = 2 对 应 的 第 三 条 线 从 P, ,开始 (图 8-1lm ). 因 
此 ， 对 应 于 不 同 迭 代 的 多 条 这 样 的 线 是 同时 移动 的 。 

计 代 的 每 个 步骤 ， 比 如 除法 、 消 元 、 或 传递 一 个 数据 到 相 邻 的 进程 ， 都 是 时 间 不 变 的 操 
作 。 因 此 ， 在 恒定 的 时 间 内 ,这 样 的 线 向 着 矩阵 的 右 下 角 移动 一 步 (等 价 于 图 8-11 的 两 步 )， 
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/000 


与 & = 0 对 应 的 线 在 Po 启动 后 到 达 已 ,所 花 的 时 间 为 B(m)。 对 于 外 层 循环 的 "次 和 迭代， 该 算法 
形成 m 条 线 。 每 条 线 比 前 一 条 线 延 后 一 步 。 因 此 在 第 一 条 线 之 后 ， 最 后 一 条 线 通过 和 矩阵 的 右 下 
角 要 经 过 B(n) 步 。 在 Poo 开 始 的 第 一 条 线 到 最 后 一 条 线 完成 所 花 的 时 间 是 8@(n)。 在 最 后 一 条 线 
通过 矩阵 的 右 下 角 后 这 个 过 程 才 算 完成 ， 因 此 总 的 并 行 运 行 时 间 为 8(n)。 由 于 使 用 个 进程 ， 
流水 线 高 斯 消 元 法 版 本 的 成 本 为 86(n?)， 与 算法 的 串 行 运行 时 间 相 同 。 由 此 可 见 用 二 维 划 分 的 
流水 线 高 斯 消 元 法 版 本 是 成 本 最 优 的 。 
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图 8-11 用 25 个 进程 的 5 x 5 矩阵 的 流水 线 高 斯 消 元 
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268 务 8 间 

进程 个 数 小 于 nz 的 二 维 划 分 “考虑 进程 的 信 数 pP < 痉 的 情形 ， 并 用 块 二 维 划分 把 矩阵 映射 
到 \ 万 x 万 格 网 。 图 8-12 说 明 ， 典 型 的 并 行 高 斯 迭代 包括 ma/ \ 万 个 值 的 按 行 和 按 列 通信 。 图 
8-13a 说 明 n = 8、p = 16 时 的 块 二 维 划分 方法 的 负载 分 布 。 
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图 8-12 对 于 分 布 在 二 维 格 网 的 16 个 进程 的 8 x 8 矩阵 ， 
与 = 3 对 应 的 高 斯 消 元 法 选 代 中 的 通信 步 对 

图 8-12 和 图 8-13a 说 明 ， 包 含 矩阵 一 个 完整 参与 部 分 的 进程 要 执行 n? /Vp 次 乘法 与 减法 运 
算 ， 并 且 沿 着 它 的 行 和 列 进行 w/ VP 个 字 的 通信 (忽略 一 个 事实 : 在 最 后 的 ( n/Vp )-1 次 选 
代 中 ， 和 矩阵 参与 部 分 已 经 变 得 比 一 个 块 更 小 了 ， 而 且 没 有 一 个 进程 包含 矩阵 一 个 完整 参与 部 
分 )。 如 果 使 用 流水 线 算法 ， 则 每 次 迭代 中 每 个 进程 的 算术 运算 次 数 ( 2n2 /Vp ) 要 比 每 个 进程 
通信 字数 ( n/ Vp ) 高 一 个 数量 级 。 因 此 ， 当 痉 相 对 于 p 充 分 大 时 ， 计 算 在 每 次 欠 代 的 计算 与 通 
信 中 占 主导 地 位 。 忽 略 通信 的 成 本 并 且 假 设 每 次 标量 算术 运算 需要 一 个 单位 时 间 ， 则 这 个 算 
法 的 总 并 行 运行 时 间 是 (2z2z/p) x n， 等 于 2n3/p。 进 程 - 时 间 的 乘积 是 2n;?， 是 串 行 算法 (公式 (8- 
17)) 的 3 倍 。 所 以 并 行 算法 效率 的 上 界 为 1/3。 

与 使 用 块 一 维 划分 时 的 情形 一 样 ， 和 矩阵 块 二 维 划分 高 斯 消 元 法 之 所 以 效率 低 ， 是 由 负载 
分 配 不 平衡 导致 的 进程 空闲 引起 的 。 当 16 个 进程 中 的 8 x 8 的 系数 矩阵 采用 二 维 块 划分 时 ， 图 
8-13a 显 示 对 应 于 k = 3 的 外 层 循环 迭代 中 系数 矩阵 的 参与 部 分 。 如 图 所 示 ，16 个 进程 中 有 7 个 
进程 完全 空闲 ，5 个 部 分 工作 ， 只 有 4 个 完全 在 工作 。 到 外 层 循环 的 迭代 完成 一 半 时 ， 只 有 四 
分 之 一 的 进程 在 工作 。 进 程 空 阅 使 得 并 行 算法 的 成 本 高 于 串 行 算法 。 

如 果 使 用 如 图 8-13b 所 示 的 二 维 循环 方式 划分 矩阵 ， 则 空闲 可 以 减少 。 使 用 循环 二 维 方式 
划分 时 ， 在 任何 选 代 中 ， 任 何 两 个 进程 间 计 算 负载 的 最 大 差别 只 是 一 行 和 一 列 的 更 新 。 例 如 ， 
在 图 8-13b 中 ， 右 下 角 的 进程 有 np 个 矩阵 元 素 参与 计算 ， 左 上 角 的 进程 有 (n-1)2/p 个 和 矩阵 元 素 
参与 计算 。 在 任何 选 代 中 ， 任 何 两 个 进程 间 计 算 负载 的 差别 最 多 是 B(n/Vp) ， 它 对 开销 函数 
的 贡献 是 B(n/ yp) 。 由 于 有 mn 次 迭代， 使 用 循环 映射 时 由 进程 空闲 造成 的 累积 开销 只 
有 Bln* /Vp)， 而 使 用 块 映射 时 为 6(m) (习题 8.12)。 在 高 斯 消 元 和 LU 因 式 分 解 的 实际 并 行 实 
现 中 ， 用 块 循环 映射 减少 由 于 和 单纯 循环 映射 相关 的 消息 启动 时 间 引 起 的 开销 ， 并 通过 执行 
块 矩阵 操作 获得 更 好 的 串 行 CPU 利 用 率 (习题 8.15 ) 。 
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a) 块 方 格 映射 b) 循环 方 格 映射 


图 8-13 对 于 与 & = 3 对 应 的 高 斯 消 元 迭代 ， 在 8 x 8 矩阵 到 16 个 进程 的 
块 映 射 和 循环 二 维 映射 中 不 同 进程 的 计算 负载 


综 上 所 述 ， 我 们 得 到 以 下 结论 : 对 于 n x mn 和 矩阵， 在 p 个 进程 上 使 用 一 维和 二 维 划分 方案 ， 
流水 线 并 行 高 斯 消 元 法 花费 的 时 间 为 @(n3/p)。 对 于 nxn 系数 矩阵 ， 二 维 划 分 比 一 维 划 分 可 以 
使 用 更 多 的 进程 (O(n”))， 一 维 划分 使 用 进程 的 数量 级 为 0(n)。 因 此 ， 二 维 划 分 方法 更 具 可 扩 
展 性 。 


8.3.2 ” 带 部 分 主 元 选择 的 高 斯 消 元 算法 


在 算法 8-4 中 ， 如 果 系数 矩阵 的 任何 主 对 角 线 元 素 A[k,k] 接 近 或 者 等 于 零 ， 高 斯 消 元 法 算 
法 就 是 无 效 的 。 为 了 避免 这 个 问题 ， 保 证 算法 的 数值 稳定 性 ， 我 们 使 用 一 个 称 为 部 分 主 元 选 
择 (partial pivoting) 的 技术 。 在 第 k 次 迭代 的 外 层 循环 开始 时 ， 这 个 方法 选择 一 个 列 i ( 称 为 
主 元 列 ) 使 4[k 溃 在 数量 上 是 所 有 A[KJj] (k<j < 六 中 最 大 的 。 然 后 在 开始 迭代 前 交换 第 k 列 与 第 
i 列 。 可 以 用 两 种 方式 进行 交换 : 一 种 是 显 式 交换 ， 即 将 这 些 列 从 物理 上 交换 位 置 ， 一 种 是 隐 
式 交 换 ， 即 维护 一 个 n x 1 置换 向 量 ， 记 录 托 阵 4 中 列 的 新 下 标 。 如 果 用 隐 式 列 下 标 交换 实现 部 
分 主 元 选择 ， 那 么 因 式 L 和 U 并 不 恰好 是 三 角 矩 阵 ， 而 是 三 角 和 矩阵 的 按 列 置换 。 

假设 对 列 进行 显 式 交 换 ， 则 在 第 k 次 迭代 中 ， 交 换 第 k 列 与 第 i 列 之 后 ， 算 法 8-4 中 第 6 行 用 
来 做 除数 的 A[k,K] 的 值 大 于 或 者 等 于 在 k 次 迭代 中 被 它 除 的 任何 4[k 四 的 值 。 算 法 8-4 中 的 部 分 主 
元 选择 产生 一 个 单位 上 三 角 矩 阵 ， 其 中 主 对 角 线 以 上 的 所 有 元 素 的 绝对 值 都 小 于 1。 


1. 一 维 划 分 

如 8.3.1 市 讨论 的 那样 ， 进 行 部 分 主 元 选择 在 按 行 向 划分 时 是 直截了当 的 。 在 第 k 次 迭代 中 
进行 除法 运算 之 前 ， 储 存 第 k 行 的 进程 在 该 行 的 参与 部 分 中 进行 比较 ， 选 择 绝对 值 最 大 的 元 素 
作 除 数 。 这 个 元 素 确定 主 元 列 ， 而 所 有 的 进程 都 必需 知道 这 一 列 的 下 标 ， 这 个 信息 可 以 沿 第 
行 (经 过 除法 后 ) 修改 的 元 素 传 送 到 其 他 进程 。 与 不 用 主 元 选择 的 高 斯 消 元 法 一 样 ， 在 第 k 次 
迭代 中 ， 主 元 搜索 与 除法 步骤 结合 需要 的 时 间 为 B(z-k-1)。 因 此 ， 如 果 矩 阵 是 按 行 划分 的 ， 
则 部 分 主 元 选择 对 算法 8-4 的 性 能 就 没有 什么 影响 。 

现在 考虑 系数 矩阵 的 按 列 一 维 划 分 。 不 用 主 元 选择 时 ， 高 斯 消 元 法 的 并 行 实现 用 按 行 一 
维 划分 与 按 列 一 维 划 分 来 说 几乎 是 一 样 的 。 然 而 ， 使 用 部 分 主 元 选择 时 两 者 则 有 重大 差别 。 

折 一 个 差别 在 于 ， 与 按 行 划分 不 同 ， 主 元 搜索 是 按 列 划分 分 布 的 。 对 n x n 和 矩阵 ， 如 果 进 
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程 的 个 数 是 p， 则 按 列 划分 的 主 元 搜索 分 为 两 步 。 对 于 第 k 次 迭代 的 主 元 搜索 中 ， 每 个 进程 首 
先 人 确定 它 所 存储 的 第 k 行 的 n/p (或 者 更 少 ) 个 元 素 的 最 大 值 。 下 一 步 是 找 出 所 产生 的 p (或 者 
更 少 ) 个 值 中 的 最 大 值 ， 并 且 把 这 个 最 大 值 分 布 到 所 有 的 进程 上 。 每 次 主 元 搜索 花费 的 时 间 
十 B(n/p) + B(log p)。 当 nn 相对 于 p 充 分 大 时 ，G@(n/p) + B(log p) 小 于 B(n)， 其 中 B(n) 是 采用 按 
行 划分 时 执行 主 元 搜索 花费 的 时 间 。 这 似 平 表明 在 部 分 主 元 选择 中 ， 按 列 划分 要 优 于 按 行 划 
分 。 但 是 ， 下 面 的 因素 有 利于 按 行 划分 。 

图 8-7 说 明 在 使 用 按 行 一 维 划分 的 流水 线 高 斯 消 元 法 中 ， 通 信 与 计算 “前 沿线 ”是 如 何 从 
上 到 下 移动 的 。 类 似 地 ， 在 按 列 一 维 划 分 的 情形 ， 通 信 与 计算 “前 沿线 ”从 左 到 右 移动 。 这 
意味 着 ， 在 与 第 k 次 迭代 对 应 的 “前 沿线 ”到 达 最 右边 的 进程 之 前 ， 第 上 +1 行 不 能 进行 与 第 
k +1 次 迭代 对 应 的 主 元 搜索 (因为 它 的 更 新 没有 完成 )。 因 此 在 第 k 次 迭代 全 部 完成 之 前 ， 不 

367| ”能 开始 第 k +1 次 迭代 。 这 在 实际 上 是 消除 流水 线 ， 因 此 不 得 不 使 用 效率 低下 的 同步 版 本 。 

当 进 行 部 分 主 元 选择 时 ， 系 数 和 矩阵 的 列 可 以 显 式 交 换 ， 也 可 以 不 显 式 交 换 。 在 任何 一 种 
情况 下 ， 按 列 一 维 划分 都 不 利于 算法 8-4 的 性 能 。 回 忆 在 高 斯 消 元 法 中 ， 循 环 映射 或 者 块 循环 
映射 的 负载 平衡 都 要 比 块 映射 好 。 在 高 斯 消 元 法 的 每 一 阶段 ， 循 环 映射 保证 矩阵 的 参与 部 分 
几乎 均匀 地 在 各 进程 中 分 布 。 如 果 主 元 列 不 是 显 式 交换 的 ， 则 这 个 条 件 可 能 不 成 立 。 使 用 主 
元 列 以 后 ， 该 列 不 再 保留 在 矩阵 的 参与 计算 部 分 内 。 由 于 主 元 选择 没有 显 式 交换 ， 这 些 列 就 
可 以 从 矩阵 不 同 进程 的 参与 计算 部 分 中 任意 地 删除 。 这 样 的 任意 性 可 能 干扰 参与 计算 部 分 的 
均匀 分 布 。 另 一 方面 ， 如 果 属 于 不 同 进程 的 列 进行 显 式 交换 ， 则 这 个 交换 需要 进程 之 间 的 通 
信 。 如 果 不 进 行列 的 显 式 交换 ， 则 按 行 一 维 划 分 既 不 需要 因为 交换 列 而 进行 通信 ， 也 不 会 失 
去 负载 平衡 。 : 

2. 二 维 划 分 

对 系数 矩阵 进行 二 维 划分 时 ， 部 分 主 元 选择 即使 没有 完全 抵消 流水 线 的 作用 ， 却 也 严重 
地 限制 了 它 的 作用 。 回 忆 在 采用 二 维 划 分 的 流水 线 高 斯 消 元 法 中 ， 对 应 于 各 个 迭代 的 “前 沿 
线 ” 从 左上 向 右 下 移动 。 当 对 应 于 第 k 次 选 代 的 “前 沿线 ”的 移动 越过 参与 矩阵 中 连接 左下 与 
右上 的 对 角 线 时 ， 第 k +1 次 迭代 的 主 元 搜索 可 以 立即 开始 。 

因此 ， 在 采用 二 维 划分 的 并 行 高 斯 消 元 法 中 ， 部 分 主 元 选择 可 能 导致 相当 大 的 性 能 下 降 。 
如 果 数 值 条 件 允 许 ， 由 部 分 主 元 选择 引起 的 性 能 损失 有 可 能 减少 。 在 第 k 次 迭代 中 ， 我 们 可 以 
把 对 选 主 元 的 搜索 限制 在 q 个 列 的 范围 (而 不 是 所 有 n-k 列 )。 在 这 种 情况 下 ， 如 果 A[ki] 是 第 i 
行 参与 部 分 的 g 个 元 素 中 的 最 大 元 素 ， 则 选择 第 i 列 作为 第 k 次 迭代 的 主 元 。 这 个 受到 限制 的 部 
分 主 元 选择 不 仅 减 少 通信 开销 ， 也 允许 有 限 的 流水 线 。 把 主 元 搜索 的 列 数 限 制 为 x， 只 要 前 一 
次 迭代 更 新 了 前 g +1 列 就 可 以 开始 下 一 次 迭代 。 

使 用 4.7.1 节 所 描述 的 一 对 多 广播 的 快速 算法 ， 可 以 避免 用 二 维 划分 的 高 斯 消 元 法 中 由 于 
部 分 主 元 选择 造成 的 流水 线 损失 。 对 p 个 进程 的 x x n 系 数 矩 阵 采用 二 维 划 分 时 ， 在 流水 线 版 本 
的 高 斯 消 元 法 的 每 次 迭代 中 ， 一 个 进程 在 通信 中 花费 的 时 间 为 @(n/Vp) 。 忽 略 消息 的 启动 时 
间 1, ， 一 个 非 流水 线 版 本 的 高 斯 消 元 法 当 其 使 用 4.1 节 中 的 算法 执行 显 式 一 对 多 广播 时 ， 每 次 
运 代 中 花费 的 通信 时 间 为 @((n/Vyp)logp) 。 这 个 通信 时 间 高 于 流水 线 版 本 。4.7.1 节 描述 的 一 
对 多 广播 算法 每 次 迭代 花费 的 时 间 为 8(n/Vp) (忽略 启动 时 间 )。 这 个 时 间 源 近 地 等 于 流水 线 

368j 算法 每 次 迭代 的 通信 时 间 。 因 此 ， 使 用 巧妙 的 算法 进行 一 对 多 广播 ， 即 使 采用 非 流 水 线 并 行 
高 斯 消 元 法 ， 也 能 达到 能 与 流水 线 算法 可 比 的 性 能 。 但 是 ，4.7.1 节 中 讲述 的 一 对 多 广播 算法 





把 消息 分 成 更 小 的 部 分 并 分 开发 送 。 为 了 使 这 些 算法 有 效 ， 消 息 容 量 应 该 足够 大 ， 即 n 对 p 而 
言 应 该 足够 大 : 

虽然 在 采用 一 维 划分 的 高 斯 消 元 法 中 ， 流 水 线 与 主 元 选择 不 能 同时 使 用 ,但 是 本 节 讨 论 
的 一 维 划分 仍然 是 有 用 的 。 稍 做 修改 ， 它 就 可 以 用 于 Cholesky 因 式 分 解 算法 中 (习题 8.16 的 算 
法 8-6)， 且 不 需要 主 元 选择 。Cholesky 因 式 分 解 只 用 于 对 称 的 正定 抢 阵 。 一 个 nx nm 的 实 和 矩阵 4 
称 为 正定 的 《positive definite )， 如 果 对 于 任意 的 n x 1 非 零 实 向 量 x， 和 矩阵 4 满足 x7Ax > 0。 
Cholesky 因 式 分 解 中 的 通信 模式 与 高 斯 消 元 法 的 通信 模式 非常 相似 (习题 8.16)， 所 不 同 的 是 ， 
由 于 矩阵 上 下 三 角 的 对 称 性 ，Cholesky 因 式 分 解 只 使 用 矩阵 一 半 的 三 角 。 


8.3.3 求解 三 角 系 统 : 回 代 法 


我 们 现在 简单 地 讨论 求解 线性 方程 组 的 第 二 个 阶段 。 当 和 矩阵 A 被 简化 成 主 对 角 线 元 素 为 1 
的 上 三 角 和 矩阵 U 之 后 ， 我 们 用 回 代 法 确定 向 量 x。 算 法 8-5 为 求解 上 三 角 方程 组 Ux = y 的 串 行 回 
代 法 算法 ， 


从 最 后 一 个 方程 开始 ， 算 法 8-5 的 主 循环 (3 ~ 8 行 ) 的 每 次 迭代 计算 变量 的 值 ， 并 把 变量 


的 值 回 代 到 剩余 方程 中 。 程 序 大约 需 要 执行 /2 次 乘法 和 减法 运算 。 注 意 ， 在 回 代 法 中 ， 算 术 
运算 次 数 要 比 高 斯 消 元 法 中 的 次 数 小 一 个 8() 个 倍数 。 因 此 ， 如 果 将 回 代 法 与 高 斯 消 元 法 结 
合 使 用 ， 就 可 以 采用 使 并 行 高 斯 消 元 法 最 有 效 的 矩阵 划分 方案 。 

算法 8-5 ” 回 代 法 的 串 行 算法 ，U 是 主 对 角 线 元 素 为 1 和 次 对 角 线 元 素 为 零 的 上 三 角 矩 阵 


1 procedure BACK_SUBSTITUTION (U, x, y) 

2. ”begin 

3 for := nO— 1 aownto0do /* Main loop */ 
4. in 

5, Xx[k] := y[K]; 

6 for i :=k— 1 downto 0 do 

7 yi] := y[i] — x[k] x UEi, kK]; 

8 endfor.; 

9 end BACK.SUBSTITUTION 





考虑 对 p 个 进程 的 n x n 和 矩阵 U0 的 按 行 的 块 一 维 映射 。 令 向 量 y 在 所 有 的 进程 中 均匀 分 布 。 在 
主人 循环 (第 3 行 ) 一 次 典型 迭代 中 解 出 的 变量 值 必须 送 到 使 用 包含 变量 的 方程 的 所 有 进程 中 。 
这 个 通信 可 以 以 流水 线 方式 实现 (习题 8.22)。 如 果 这 样 ， 则 在 迭代 中 ， 与 通信 时间 相 比 ， 计 
算 时 间 是 主要 的 。 在 流水 线 实现 的 每 次 迭代 中 ， 每 个 进程 收 到 (或 者 产生 ) 一 个 变量 的 值 ， 
并 且 把 它 送 到 另 一 个 进程 。 进 程 使 用 当前 和 迭代 求 出 的 变量 值 执行 多 达 mp 次 乘法 和 减法 (第 6、 


7 行 )。 因 此 流水 线 实现 的 每 一 步 需要 的 通信 时 间 为 常数 ， 而 计算 时 间 为 98(n/p)。 算 法 执行 8@(n) 


步 (习题 8.22) 终结 ， 整 个 算法 的 并 行 运行 时 间 为 @(n2/p)。 

如 果 使 用 对 进程 的 Vp x VP 逻辑 格 网 上 的 二 维 划分 对 矩阵 进行 划分 ， 并 且 向 量 的 元 素 沿 
进程 格 网 的 列 分 布 ， 则 只 有 包含 向 量 的 Vp 个 进程 进行 所 有 的 计算 。 使 用 流水 线 方式 ， 将 U 的 
这 当 元 素 传送 到 包含 y 的 相应 元 素 的 进程 ， 以 进行 置换 步骤 (第 7 行 )， 算 法 能 在 时 间 @(n?Vp) 
内 完成 (习题 8.22)。 因 此 ， 采 用 二 维 映 射 的 并 行 回 代 法 的 成 本 为 @(n?Vp) 。 由 于 算法 的 串 行 成 
本 仅 为 8(n”)， 算 法 不 是 成 本 最 优 的 。 然 而 ， 对 于 Yp = O(n)， 求解 线性 方程 组 的 整个 过 程 
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(包括 使 用 高 斯 消 元 法 进行 矩阵 的 上 三 角 化 ) 仍然 是 最 优 的 ， 因 为 整个 过 程 的 串 行 复杂 度 是 
Q(n), 


8.3.4 求解 线性 方程 组 时 的 数值 因素 


对 于 Ax = /型 的 线性 方程 组 ， 可 以 把 4 表示 成 一 个 下 三 角 和 卸 阵 了 和 一 个 单位 上 三 角 和 矩阵 1 的 
乘积 ， 用 因 式 分 解 算法 求解 。 于 是 方程 组 可 以 写成 LUx = bp， 然 后 分 两 步 求 解 。 首 先 解 下 三 角 
方程 组 Ly = b 得 到 y， 然 后 解 上 三 角 方程 组 Ux = y 得 到 x。 

算法 8-4 中 给 出 的 高 斯 消 元 算法 能 够 有 效 地 把 4 分 解 成 L 和 UU。 但 是 ， 它 也 可 以 用 第 7、13 
行 的 步骤 解 下 三 角 方程 组 Ly = b。 算 法 8-4 中 给 出 称 为 面向 行 (row-oriented ) 的 高 斯 消 元 算法 。 
在 这 个 算法 中 ， 行 与 数 的 相 乘 与 其 他 行 相 减 。 如 果 如 8.3.2 节 所 叙述 的 那样 ， 把 部 分 主 元 选择 
忆 算 法 结合 ， 则 得 到 所 有 元 素 的 值 都 小 于 或 者 等 于 1 的 上 三 角 和 矩阵 VU。 下 三 角 和 矩阵 LL 不论 显 式 
还 是 隐 式 ， 可 以 有 数值 更 大 的 元 素 。 求 解 方程 组 4x = b 时 ， 首 先 解 下 三 角 方 程 组 Ly = b。 如 果 
! 包 含 大 的 元 素 ， 则 求解 ?时 ， 由 于 计算 机 浮 点 数 的 精度 有 限 ， 会 产生 舍 人 误差 。y 中 这 些 误差 
通过 方程 组 wx = y 的 解 传播 。 

通过 把 行 和 列 的 角色 互 换 ， 可 以 从 算法 8-4 得 出 面向 列 (column-oriented) 的 高 斯 消 元 算 
法 。 在 面向 列 的 算法 中 ， 从 其 他 列 中 减 去 列 与 数 的 相 乘 ， 主 元 搜索 也 沿 着 列 进行 ， 如 果 需 要 ， 
可 以 用 行 交换 保证 数值 的 稳定 性 。 面 向 列 算法 产生 的 下 三 角 和 矩阵 L 的 所 有 元 素 的 值 都 小 于 或 者 
等 于 1， 这 使 得 求解 方程 组 Ly = 2 产生 的 数值 误差 达到 最 小 ， 而 且 使 全 部 解 产 生 的 误差 小 于 面 
向 行 的 算法 。 算 法 3.3 给 出 面向 列 的 LU 分 解 的 过 程 。 

从 实际 的 观点 来 看 ， 面 向 列 的 高 斯 消 元 算法 比 面向 行 的 高 斯 消 元 算法 更 有 用 。 本 章 我 们 
之 所 以 选择 面向 行 的 高 斯 消 元 算法 作 详细 氢 述 ， 是 因为 它 更 为 直观 。 显 然 ， 从 其 他 方程 中 减 
去 一 个 方程 的 倍数 所 得 到 的 线性 方程 组 与 原 方程 组 等 价 。 通 过 转换 行 与 列 的 角色 ， 本 节 讨 论 
的 算法 8-4 中 面向 行 的 算法 都 可 以 应 用 到 面向 列 的 算法 中 。 例如 ， 对 于 用 部 分 主 元 选择 的 面向 
列 的 算法 ， 按 列 一 维 划分 比 按 行 一 维 划分 更 合适 。 


8.4 书目 评注 


采用 一 维 划分 的 矩阵 转 置 问题 的 实质 是 多 对 多 私自 通信 问题 [Ede89]。 因 此 ， 第 4 章 中 关 
于 多 对 多 个 性 化 通信 的 所 有 参考 文献 都 可 以 应 用 到 矩阵 转 置 中 。 递 归 转 置 算法 (通称 为 RTA 
是 Eklundh [Ek172] 最 持 提 出 来 的 。 Bertsekas 和 Tsitsklis[BT97] ，Fox 和 Furmanski[FF86]， 
Johnsson[Joh87]， 以 及 McBryan 和 Van de Velde[MdV87] 将 它 用 在 超 立 方 体 中 ， 用 于 每 个 进程 
的 单一 端口 通信 。 Johnsson[Joh87] 还 通过 允许 在 所 有 通道 上 进行 通信 的 超 立 方 体 讨论 并 行 
RTA。. Ho 和 Raghunath[HR91], Johnsson 和 Ho[JH88] ，Johnsson[Joh90] 以 及 Stout 和 
Wagar[SW87] 对 超 立 方 体 的 RTA 提 出 了 进一步 改进 。 

现在 可 以 找到 许多 并 行 稠密 线性 代数 算法 的 来 源 ， 包 括 和 矩阵 ~ 向 量 乘 法 . 矩阵 乘法 
[CAHH2，GPS90，GL96a，Joh87，Mod88，0S85]。 由 于 稠密 矩阵 乘法 是 计算 高 度 密集 型 的 ， 
研究 这 些 算法 的 并 行 形式 ， 并 在 不 同 的 并 行 体系 结构 上 测试 它们 的 性 能 具有 很 大 的 意义 
[Akl89，Ber89，CAHH91，Can69， Cha79, CS88, DNS81, dV89, FJL:*88, FOH87, GK91, 
GL96a, Hip89, HJE91, Joh87, PV80, Tic88], Cannon[{Can69], Dekel, Nassimi 和 和 
Sahni{[DNS81], Fox et al. [FOH87] 等 开发 了 一 些 早 期 的 伟 阵 乘法 并 行 公 式 。Berntsen [Ber89], 





以 及 Ho，Johnsson 和 Edelman[HJE91] 对 这 些 算法 提出 变 体 和 作 了 改进 。 尤 其 是 Berntsen 
[Ber89] 提出 一 个 算法 ， 比 Cannon 算 法 的 通信 开销 要 小 ， 但 是 并 发 度 也 小 。Ho，Johnsson 和 
Edelman[HJE91] 针 对 超 立 方 体 提出 Cannon 算 法 的 另外 一 个 变 体 ， 允 许 在 所 有 通道 上 同时 进行 
通信 。 这 个 算法 在 减少 通信 的 同时 也 降低 并 发 度 。Gupta 和 Kumar[GK91] 对 几 种 矩阵 乘法 算法 
进行 详细 的 可 扩展 性 分 析 。 他 们 对 p 个 进程 的 超 立 方 体 和 n, p 及 硬件 相关 常数 的 不 同 取 值 范围 ， 
就 如 何 确 定 两 个 n x n 和 矩阵 相 磁 的 最 好 算法 给 出 一 种 分 析 。 他 们 还 证 明 由 Berntsen 和 Ho 等 人 提 
出 的 改进 算法 并 没有 改进 超 立方 体 上 矩阵 乘法 的 整体 可 扩展 性 。 

一 些 研 究 人 员 [Ber84，BT97，CG87，Cha87，pDav86，DHvdV93，FJL+88 ，Gei85， 
GH86, GPS90, GR88, Joh87, LD90, Lei92, Mod88, Mol86, OR88, Ort88, OS86, 
PR85，Rob90，Saa86，Vav89] 研 究 了 关于 LU 分 解 和 稠密 线性 方程 组 求解 的 并 行 算法 。Geist 
和 Heath[GH85，GH86] 以 及 Heath{Hea85] 专 门 研究 了 稠密 Cholesky 因 式 分 解 的 并 行 算法 。 三 
角 方 程 组 求解 的 并 行 算法 在 [EHHR88，HR88，LC88，LC89，RO88，Rom87] 中 作 了 详细 的 
研究 。Demmel，Heath 和 van der Vorst[DHvdV93] 对 考虑 数值 含义 的 并 行人 第 阵 计 算 作出 详细 而 
全 面 的 综述 。 

本 章 中 讨论 的 所 有 和 矩阵 和 向 量 运 算 ， 以 及 更 多 的 操作 ， 可 找到 可 移植 的 软件 实现 ， 称 为 
PBLAS (并 行 的 基本 线性 代数 子 程序 ) [C*95]。ScaLAPACK 程 序 库 [B+97] 使 用 PBLAS 实 现 多 
种 有 实际 意义 的 线性 代数 子 程序 ， 其 中 包括 矩阵 因 式 分 解 和 线性 方程 组 求解 的 各 种 方法 的 过 
程 。 
习题 

8.1 考虑 4.5.3 节 用 于 多 对 多 私自 通信 和 的 两 个 算法 。 如 果 # = 100ps, t= lus， 在 有 64 个 节 
点 和 对 分 宽度 为 8(p) 的 并 行 计算 机 上 ， 使 用 一 维 划分 对 一 个 1024 x 1024 和 矩阵 进行 转 置 ， 你 将 
使 用 哪 种 方法 ?为 什么 ? 

8.2 ”给 出 一 个 矩阵 -向 量 乘法 的 并 行 形式 ， 其 中 对 矩阵 按 列 进行 一 维 块 划 分 ， 向 量 被 均 
匀 地 分 布 到 所 有 的 进程 中 。, 证 明 并 行 运行 时 间 与 按 行 一 维 块 划分 的 情形 相同 。 

提示 : 在 按 列 一 维 划 分 中 使 用 的 基本 通信 操作 为 多 对 多 归 约 ， 与 按 行 一 维 划分 时 的 多 对 
多 广播 相反 。 习 题 4.8 描 述 多 对 多 归 约 ， 

8.3 8.1.2 节 描述 和 分 析 二 维 划 分 情况 下 矩阵 -向 量 乘 法 。 如 果 半 >> VP ， 则 给 出 的 方法 将 
并 行 运行 时 间 改 进 为 /p+2t,1logp+2t,(n/Yp)。 改 进 的 方法 比 8.1.2 节 使 用 的 方法 有 更 好 的 
可 扩展 性 吗 ? 

8.4 ”在 p 个 进程 中 进行 采用 二 维 划 分 的 n x n 和 矩阵 与 4 x 1 向 量 相 乘 ， 其 开销 函数 是 1t,p log p 
+ twn plogp (公式 (8-8))。 把 这 个 表达 式 代入 公式 (5-14) 中 ， 得 到 关于 n 的 二 次 方程 。 用 这 个 
方程 确定 并 行 算法 的 精确 等 效率 函数 ， 并 与 公式 (8-9) 和 (8-10) 进 行 比较 。 比 较 结 果 是 否 改 变 与 
tw 相关 的 项 确定 这 个 并 行 算法 整体 等 效率 函数 的 结论 ? 

8.5 Strassen 的 关于 和 矩阵 相 乘 的 方法 [AHU74，CLR90] 是 一 个 基于 分 治 技术 的 算法 。 使 用 
Strassen 的 算法 ， 两 个 n x n 和 矩阵 乘法 计算 的 品行 复杂 度 是 B(n?*1)。 对 于 用 p 个 进程 的 两 个 nxn 
和 矩阵 乘法 计算 ， 考 虑 简单 矩阵 相 乘 算法 (8.2.1 节 )。 假 设 在 每 个 进程 上 用 Strassen 算 法 执 
行 wW/VP xm/VP 子 矩 阵 的 乘法 。 试 推导 这 个 算法 的 并 行 运行 时 间 表达 式 。 该 并 行 算法 是 成 本 
最 优 的 吗 ? 
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8.6 (不 超过 n? 个 进程 的 DNS 算法 [DNS81]) 8.2.3 节 描述 使 用 不 超过 个 进程 的 DNS 算 法 
的 一 个 并 行 形式 。 该 算法 的 一 个 变 体 使 用 p = n2g 个 进程 ， 其 中 1< gq <n。 这 里 进程 排列 成 称 为 
“超级 进程 ”的 g x g x g 逻 辑 三 维 阵列 ， 其 中 每 个 “超级 进程 ”都 是 一 个 (n/g) x (n/g) 进 程 格 网 。 
现在 除了 假设 每 个 进程 是 一 个 (n/g) x (n/q) 的 逻辑 进程 格 网 外 ， nh 
述 的 块 变 体 相同 。 这 就 意味 着 (n/q) x (wd) 子 矩阵 的 每 次 块 相 乘 都 是 在 (wa): 个 进程 中 并 行 
的 ， 而 不 是 只 在 一 个 进程 中 执行 。8.2.1 节 或 8.2.2 节 中 介绍 的 任何 算法 都 可 以 用 来 执行 -这样 的 
乘法 。 

对 于 DNS 算 法 的 这 个 变 体 推导 出 用 n, p, 1, , 1， 表示 的 并 行 运行 时 间 表达 式 ， 用 它 与 公式 
(8-16) 比 较 。 讨 论 使 用 不 超过 个 进程 时 ，DNS 算 法 的 两 个 变 体 的 优点 和 缺点 。 

8.7 ”图 8-7 说 明 ， 对 于 在 5 个 进程 上 一 个 按 行 划分 的 5 x 5 和 矩阵， 流水 线 版 本 的 高 斯 消 元 法 
需要 16 个 步骤 。 证 明 ， 在 一 般 情况 下 ， 把 一 个 n x nm 矩阵 按 行 划分 ， 一 个 进程 分 配 一 行 ， 则 完 
成 如 图 所 示 的 算法 需要 4(n-1) 个 步 又 。 

8.8 ”如 果 在 p 个 进程 中 ， 把 n x "系数 矩阵 按 列 划分 ， 试 详细 描述 不 用 主 元 选择 的 算法 8-4 
中 高 斯 消 元 算法 的 并 行 实现 。 请 考虑 流水 线 和 非 流水 线 两 种 实现 方式 。 也 考虑 p = n 和 p < n 时 
的 情形 。 

提示 : 8.3.1 节 描述 的 高 斯 消 元 法 的 并 行 实现 说 明 在 进程 的 罗 辑 二 维 格 网 上 的 横向 与 纵向 
通信 (图 8-12)。 一 个 按 行 划分 只 需要 这 个 通信 的 纵向 部 分 。 类 似 地 ， 一 个 按 列 划分 只 需要 这 
个 通信 的 横向 部 分 。 

8.9 ”推导 出 习题 8.8 中 所 有 实现 的 并 行 运行 时 间 公 式 。 这 些 并 行 实现 的 运行 时 间 与 采用 按 
行 一 维 划分 时 的 并 行 运 行 时 间 有 显著 差异 吗 ? 

8.10 ”使 用 部 分 主 元 选择 ， 重 做 习题 8.9。 在 采用 按 行 5 划分 和 按 列 划分 的 两 种 实现 中 ， 并 

行 运行 时 间 有 显著 差异 吗 ? 

8.11 证 明 : 如 果 2n 次 一 对 多 广播 同步 执行 ， 对 在 进程 的 nx n 运 辑 格 殉 上 采用 一 维 划 分 的 
n x n 和 矩阵 的 高 斯 消 元 法 不 是 成 本 最 优 的 。 

8.12 证 明 : 对 于 块 映射 的 高 斯 消 元 算法 ， 所 有 进程 的 累积 空闲 时 间 为 @(m3)。 不 论 对 nxn 
算 阵 的 划分 是 沿 一 维 还 是 二 维 ， 证 明 使 用 循环 一 维 划分 的 空闲 时 间 减 少 到 8(zzp)， 循 环 二 维 
划分 的 空闲 时 间 减 少 到 B(nz JP) 。 

8.13 证 明 : 如 果 不 用 主 元 选择 ， 采 用 二 维 映射 的 高 斯 消 元 法 异步 版 本 的 等 效率 函数 是 
加 (D32)。 

8.14 ”如 果 n x ?系数 矩阵 在 逻辑 方形 二 维 格 网 的 p 个 进程 中 按 下 面 的 格式 划分 ， 分 别 推导 
出 带 部 分 主 元 选择 和 不 带 部 分 主 元 选择 的 高 斯 消 元 法 并 行 运行 时 间 的 精确 表达 式 : 

A. 按 行 块 一 维 划分 ; B. 按 行 循环 一 维 划分 ; C. 按 列 块 一 维 划分 ; DD. 按 列 循环 一 维 划分 。 

8.15 ”按照 8.2 节 开始 讨论 的 块 矩阵 操作 方法 重 写 算法 8-4。 考 虑 把 mx mn 矩阵 划分 成 g x g 子 
矩阵 阵列 的 高 斯 消 元 闪 ， 其 中 每 个 子 矩阵 的 大 小 为 wa x n/gq。 这 些 块 阵列 以 循环 的 方式 映射 到 
进程 的 一 个 逻辑 Vp xp 格 网 上 ， 导 致 一 个 从 原 矩 阵 到 格 网 的 二 维 块 循环 映射 。 假 设 
n > g > Vp ， 并 且 g 可 整除 +，Vp 可 整除 9。 试 推导 高 斯 消 元 法 同步 版 本 和 流水 线 版 本 并 行 运 
行 时 间 的 表达 式 。 

提示 : 除法 步骤 4[ky] : = 4[4j]/4[K 轨 用 子 和 矩阵 运 算 4 := 人 4 代替， 其 中 4 是 第 /个 
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对 角子 年 阵 的 下 三 角 部 分 。 

8.16 (Cholesky 因 式 分 解 ) 算法 8-6 描 述 把 一 个 对 称 正定 矩阵 分 解 为 4 = UV U 形 式 的 
Cholesky 因 式 分 解 算法 的 面向 行 的 版 本 。Cholesky 因 式 分 解 不 需要 主 元 选择 。 推 导 在 进程 的 
方形 格 网 上 使 用 二 维 划 分 的 这 个 算法 的 流水 线 并 行 公式 。 画 一 个 与 图 8-11 类 似 的 图 。 


算法 8-6 面向 行 的 Cholesky 因 式 分 解 算法 


1 procedure CHOLESKY (4) 

2 begin 

3 for :一 0to7 一 1do 

4. begin 

5. AIk, k] := VAIK, Kl]; 

6. for j :一 X 十 1ton 一 1do 

7 A[k, j] := A[k, j]/Alk, kK); 
8 fori := 上 kk 十 lton—l1do 

9. for j :一 ton 一 1do 

10. A[i, 7 := A[i, 7] — A[k, i] x A[k, j)]; 
11. endfor.; /* Line 3 */ 


12. end CHOLESKY 


8.17 ( 按 比 例 加 速 比 ) 按 比例 加 速 比 (5.7 节 ) 定义 为 当 问题 的 规模 随 着 进程 数 的 增加 而 
线性 增加 时 获得 的 加 速 比 ;也 就 是 说 ， 如 果 8 号 示 一 个 进程 上 问题 的 基本 规模 ， 则 

Wp 
Tp(Wp, p) (8-19) 

根据 8.2.1 节 描述 的 简单 矩阵 相 乘 算法 ， 对 于 16 x 16 和 矩阵 相 乘 的 基本 问题 画 出 标准 曲线 和 
加 速 比 曲线 ， 其 中 p = 1, 4, 16, 64, 256。 假 设 在 公式 (8-14) 中 t, = 10,m = 1。 

8.18 “对 于 习题 8.17， 画 出 第 三 条 加 速 比 曲线 ， 其 中 问题 的 规 横 按 等 效率 函数 68(p22) 的 比 
例 增 长 。 同 样 取 上 = 10, = 1。 

提示 : 这 种 方法 的 按 比例 加 速 比 为 


按 比 例 加 速 比 = 


《2 
按 等 效率 比例 加 速 比 二 Tp (Wp p) 


8.19 ”对 于 标准 加 速 比 曲 线 (习题 8.17)、 按 比例 加 速 比 曲线 (习题 8.17) 以 及 当 问 题 规模 
随 等 效率 国 数 增加 时 《习题 8.18) 的 加 速 比 曲线 分 别 画 出 对 应 的 简单 矩阵 相 乘 算法 的 效率 曲线 。 

8.20 只 增加 进程 的 数量 而 不 增加 总 工作 负载 的 缺点 是 ， 加 速 比 不 能 随 着 进程 数量 的 增加 而 
线性 增加 ， 而 效率 却 单调 下 降 。 根 据 你 从 习题 8.17 和 8.19 获 得 的 经 验 ， 讨 论 一 般 情况 下 求解 问题 
是 否 应 使 用 按 比例 加 速 比 而 不 用 标准 加 速 比 。 如 果 某 一 并 行 算 法 的 按 比例 加 速 比 曲线 与 按 等 效 
率 函 数 增加 问题 规模 确定 的 加 速 比 曲线 一 致 ， 那 么 对 并 行 算法 的 等 效率 函数 能 得 出 什么 结论 ? 

8.21 (时 间 受 限制 的 扩展 ) 假设 在 8.2.1 节 讨论 的 矩阵 相 乘 算法 的 并 行 执 行 时 间 表 达 式 
(公式 (8-14)) 中 ,= 10, t= 1。 对 于 p = 1、4、16、64、256、1024、4096， 如 果 总 运行 
时 间 不 超过 512 个 时 间 单 位 ， 那 么 能 解决 的 最 大 问题 规模 是 多 少 ? 一 般 情 况 下 ， 如 果 进 程 数 目 
不 受 限制 ， 是 否 能 在 固定 的 时 间 内 解决 任意 大 的 问题 ? 试 给 出 简要 说 明 。 

8.22 给 出 一 个 使 用 回 代 法 求解 Ux = ?型 三 角 方 程 组 的 流水 线 算法 ， 其 中 使 用 二 维 划分 把 
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7 xz 单位 上 三 角 怎 阵 愉 划分 到 进程 的 上 x n 格 网 上 。 给 出 算法 的 并 行 运 行 时 间 的 表达 式 。 修 改 
算法 使 其 可 以 在 少 于 产 个 进程 上 工作 ， 推 导出 修改 后 算法 的 并 行 运行 时 间 的 表达 式 。 

8.23 考虑 算法 8-7 给 出 的 两 个 n x n 和 矩阵 4 和 B 相 乘 得 到 积 什 阵 C 的 并 行 算法 。 假 设 对 一 个 
第 阵 元 素 进 行 一 次 内 存 读 写 需要 的 时 间 为 foo ， 两 个 数字 相 加 与 相 乘 需要 的 时 间 为 kx 。 确 定 这 
个 算法 在 挛 个 处 理 器 CREW PRAW 上 的 并 行 运行 时 间 。 这 个 并 行 算 东 是 成 本 最 优 的 吗 ? 

8.24 假设 在 EREW PRAM 上 把 对 内 存 的 并 发 读 访问 串 行 化 ， 推 导出 算法 8-7 给 出 的 算法 
在 履 个 处 理 器 EREW PRAM 上 的 并 行 运行 时 间 。 这 个 算法 在 EREW PRAM 上 是 成 本 最 优 的 
吗 ? 

8.25 考虑 一 台 有 m!? 个 处 理 器 的 共享 地 址 空间 并 行 计算 机 。 假 设 每 个 处 理 器 都 有 一 些 本 地 
内 存 ，A[iJj], B[ij] 被 存储 在 Pi 的 本 地 内 存 中 。 此 外 ，Pij 在 它 的 本 地 内 存 中 计算 C[ij]。 假 设 它 
在 非 本 地 内 存 中 进行 一 次 读 或 写 需 要 的 时 间 是 tocos + t, ， 在 本 地 内 存 中 进行 一 次 读 或 写 需 要 的 
时 间 是 wew 。 推 导出 算法 8-7 给 出 的 算法 在 这 人 台 并 行 计算 机 上 的 并 行 运行 时 间 的 表达 式 。 


算法 8-7 CREW PRAM 上 两 个 n x n 和 矩阵 A 和 B 相 羔 的 算法 ， 得 出 矩阵 C = AxB 


procedure MAT MULT_CREW PRAM (4, B,C,n) 
begin 
Organize the n* processes into a logical mesh of n x n; 
for each process Pi do 


Cli, j] := 0; 
fork:=0ton—1do 
CLi, 7] := Cli, j] + Ali, Kk] x BIk, j):; 
. endfor: 
10. end MAT MULT.CREW PRAM 
| 
算法 8-8 EREW PRAM 上 两 个 n x n 答 阵 A 和 B 相 冬 的 算法 ， 得 出 矩阵 C = A xB 


procedure MAT_MULT_EREW PRAM (4, B, C, n) 
begin 

Organize the n? processes into a logical mesh of n x n; 

for each process P; ; do 

begin . 
Cli, :=0; 
fork:=0ton—!ldo 

Cli, j] := CEi, 1+ 

Ali, (i + j++k) modn] x BI + j +k) modn, j]: 


} 
2 
3 
4 
5. 
6 
7 
8 
9 


PCANPAWDO- 


9. endfor: 
10. end MAT MULT EREW PRAM 


OO 
8.26 ”可 对 算法 8-7 进 行 修改 ， 使 其 在 EREW PRAM 上 的 并 行 运行 时 间 比 习题 8.24 中 的 时 
间 少 。 算 法 8-8 给 出 修改 后 的 程序 。 如 果 内 存 访问 时 间 与 习题 8.24 和 8.25 中 给 出 的 相同 ， 那 么 
算法 8-8 在 EREW PRAM 上 的 并 行 运行 时 间 是 多 少 ? 在 共享 地 址 空间 并 行 计算 机 上 的 并 行 运行 
时 间 是 多 少 ? 算 法 在 这 些 体系 结构 上 是 成 本 最 优 的 吗 ? z 
8.27 在 一 台 少 于 ?个 (比如 p 个 ) 处 理 器 的 共享 地 址 空间 并 行 计算 机 上 考虑 算法 8-8 的 实 
现 ， 假 定 内 存 访问 时 间 与 习题 8.25 中 给 出 的 时 间 相 同 。 算 法 的 并 行 运行 时 间 是 多 少 ? 
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8.28 在 一 台 共 享 地址 空间 的 并 行 计算 机 上 ， 如 果 内 存 访问 时 间 与 习题 8.25 中 给 出 的 时 间 
相同 ， 考 虑 8.2.1 节 给 出 的 矩阵 相 乘 算法 的 并 行 实 现 。 在 这 个 算法 中 ， 每 个 处 理 器 首先 把 它 接 
收 到 的 所 有 数据 存 入 它 的 本 地 内 存 中 ， 然 后 执行 计算 。 推 导 算 法 的 并 行 运行 时 间 的 表达 式 。 
对 这 个 算法 的 性 能 同 习 题 8.27 中 的 算法 作 比 较 。 

8.29 使 用 习题 8.23 -- 8.28 的 结果 ， 试 评论 将 PRAM 模 型 作为 并 行 算法 设计 平台 的 可 行 性 。 
同时 对 消息 传递 模型 与 共享 地 址 空间 计算 机 上 关联 作出 评论 。 





第 9 章 排序 


排序 是 计算 机 上 执行 的 一 项 最 常见 的 操作 之 一 。 由 于 排序 的 数据 比 顺序 随意 的 数据 更 容 
易 操 作 ， 许 多 算法 都 需要 排序 的 数据 。 因 为 排序 与 进程 间 确 定数 据 传送 路 线 的 任务 紧密 相关 ， 
排序 对 于 并 行 算法 具有 额外 的 重要 性 。 人 们 已 研究 了 许多 能 在 不 同 并 行 计算 机 体系 结构 中 使 
用 的 并 行 排序 算法 。 本 章 讲 述 一 些 体系 结构 中 的 并 行 排序 算法 ， 如 PRAM、 格 网 、 超 立方 体 
以 及 通用 的 共享 地 址 空间 和 消息 传递 结构 。 

排序 被 定义 为 ， 把 元 素 的 无 序 集合 按 单调 递增 (或 单调 递减 ) 的 顺序 排列 的 任务 。 有 具体 
说 就 是 : 令 8 = {ai, q2, …, aw} 为 n 个 元 素 以 任意 顺序 排列 的 序列 ; 排序 把 $ 转 换 成 单调 递增 的 序 
列 $ = {a ,az ,ao 了， 使 得 对 于 1<i<j<7， 有 ai < ai ， 而 $ 是 $ 的 置换 。 

排序 算法 可 以 分 为 内 排序 (internal sort) 算法 和 外 排序 (external sort) 算法 。 在 内 排序 
算法 中 ， 排 序 元 素 的 数目 要 足够 少 ， 使 得 它们 能 放 和 人 进程 的 主 存储 器 。 相 反 ， 外 排序 算法 利 
用 辅助 存储 器 件 ( 如 磁带 和 硬盘 ) 来 排序 ， 因 为 待 排序 的 元 素数 目 太 多 ， 不 适合 放 进 内 存 。 
本 章 只 讲 内 排序 算法 。 

排序 算法 又 可 以 分 为 基于 比较 的 〈comparison-based) 排序 算法 和 基于 非 比较 的 (noncom- 
parison-based ) 排序 算法 。 基 于 比较 的 排序 算法 在 排序 时 ， 对 于 无 序 元 素 序 列 里 的 元 素 对 反复 
进行 比较 ， 如 果 次 序 颠 倒 ， 就 交换 其 位 置 。 这 种 基于 比较 的 排序 的 基本 操作 称 为 比较 交换 
(compare-exchange )。 如 果 被 排序 的 元 素数 目 是 x*， 那 么 任何 基于 比较 排序 算法 的 序列 复杂 度 
的 下 界 为 BG(n log n)。 基 于 非 比 较 的 排序 利用 元 素 的 某 些 已 知性 质 (如 它们 的 二 进 制 表示 或 它 
们 的 分 布 )。 这 种 算法 的 复杂 度 下 界 为 8(n)。 本 章 将 主要 介绍 基于 比较 的 排序 算法 ， 在 9.6 市 
中 也 要 对 某 些 基于 非 比较 的 排序 作 简要 讨论 。 


9.1 并 行 计算 机 中 的 排序 问题 


将 品行 排序 算法 并 行 化 时 ， 需 要 将 待 排序 元 素 分 配 到 可 用 的 进程 中 。 这 个 过 程 中 将 会 出 
现 很 多 必须 着 重 考虑 的 问题 ， 这 样 才 能 更 清晰 地 描述 并 行 排序 算法 。 


9.1.1 输入 输出 序列 的 存放 位 置 


捉 行 排序 算法 中 ， 输 入 序列 和 排序 后 的 序列 存放 在 进程 的 内 存 里 。 但 是 在 并 行 排序 中 ， 
这 些 序列 可 以 存放 在 两 个 地 方 : 只 存放 在 其 中 一 个 进程 ， 或 者 分 散 存放 在 各 个 进程 中 。 如 果 
排序 只 是 另 一 个 算法 的 中 间 步 骤 ， 则 后 一 种 方法 更 为 实用 。 在 本 章 中 ， 我 们 假设 输入 序列 和 
排序 后 的 序列 分 散 存 放 在 各 个 进程 中 。 

下 面 考虑 排序 后 的 输出 序列 在 各 个 进程 中 的 确切 分 配 。 常 用 的 分 配方 法 是 ， 枚 举 出 所 有 
进程 ， 并 利用 此 枚 举 对 排序 后 的 序列 指定 一 个 全 局 排序 。 换 名 话说 ， 待 排序 序列 将 与 进程 枚 
苞 相 对 应 ， 或 序列 将 相对 于 进程 枚 举 排 序 。 例 如 ， 如 果 枚 举 中 Pi 排 在 Pj 之 前 ， 则 存放 在 Pi 中 
的 所 有 元 素 都 要 比 存 放 在 P) 中 的 任何 元 素 小 。 进 程 的 枚 举 有 很 多 种 方法 ， 对 于 特定 的 并 行 算 
法 和 互连网 络 ， 有 些 枚 举 比 其 他 枚 举 导 致 更 有 效 的 并 行 形式 。 
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9.1.2 如 何 进行 比较 

品行 排序 算法 很 容易 进行 两 个 元 素 的 比较 交换 ， 因 为 它们 被 存放 在 本 地 进程 的 内 存 中 。 
在 并 行 排序 算法 中 ， 这 个 步骤 不 是 那么 容易 。 如 果 元 素 被 存放 在 同一 个 进程 ， 很 容易 进行 比 
较 。 但 如 果 元 素 被 存放 在 不 同 进程 ， 情 形 就 复杂 得 多 。 

1. 每 个 进程 存放 一 个 元 素 

下 面 考虑 每 个 进程 只 存放 待 排序 序列 的 一 个 元 素 的 情况 。 在 算法 执行 的 某 一 点 ， 一 对 进 


程 P; 和 P; 可 能 需 比较 它们 的 元 素 a， 和 a, o 在 比较 之 后 ， Pi 将 存放 {ai,aj} 中 的 较 小 者 ， 而 Pj; 存放 


其 中 的 较 大 者 。 这 种 比较 可 以 通过 两 个 进程 互相 发 送 它们 的 元 素 到 对 方 进程 来 完成 。 每 个 进 
程 将 它 收 到 的 元 素 与 它 自己 的 元 素 比较 ， 然 后 保留 合适 的 元 素 。 在 我 们 的 例子 中 ， 忆 将 保存 
{a ,wj} 中 的 较 小 者 ， 而 忆 将 保留 其 中 的 较 大 者 。 如 同 串 行 排序 算法 中 的 情形 ， 这 个 操作 称 做 
比较 交换 。 如 图 9-1 所 示 ， 每 一 次 比较 交换 操作 需要 一 个 比较 步骤 和 一 个 通信 步骤 。 








ai aj di, aj aj,a: min{ai,aj} maxtai, ajl 
步骤 步 又 2 步骤 3 


图 9-1 并 行 的 比较 交换 操作 。 进 程 P 和 忆 发 送 各 自 的 元 素 到 对 方 进程 ， 
进程 P; 保 留 min{a;, a;}， 而 Pj; 保留 maxt{a; ,ai} 


假设 进程 P; 和 进程 P; 相 邻 ， 而 且 通 信 通 道 是 双向 的 ， 那 么 比较 交换 步 又 的 通信 成 本 是 (1, + 
)， 其 中 ;和 t, 分 别 是 消息 启动 时 间 和 每 字 传 输 时 间 。 在 商用 消息 传递 计算 机 中 ，1, 比 1 更 大 ， 
所 以 通信 时 间 以 i 为 主 。 请 注意 ， 在 当今 的 并 行 计算 机 中 ， 进 程 间 传 递 元 素 比 单纯 地 对 元 素 进 
行 比较 将 花 更 长 的 时 间 。 因 此 ， 如 果 并 行 排序 形式 使 用 与 待 排序 元 素 同样 多 的 进程 ， 则 它 的 
性 能 很 差 ， 因 为 进程 间 的 通信 在 整个 并 行 运 行 时 间 中 占 主导 地 位 。 


. 2. 每 个 进程 中 存放 多 个 元 素 

遂 用 并 行 排序 算法 必须 可 以 使 用 数目 相对 小 的 进程 对 大 的 序列 进行 排序 。 令 p 为 进程 Po ， 
Pi ,.…, Pp-! 的 数目 ， 令 为 待 排序 元 素 的 数目 。 每 个 进程 分 配 一 个 存放 n/p 个 元 素 的 块 ， 所 有 的 
进程 协作 完成 排序 。 令 Ao , 41, …, hp_1 是 分 别 分 配给 进程 Po, Pi , .……, Pp_! 的 块 。 如 果 4, 中 的 每 个 
元 素 小 于 或 等 于 4 中 的 每 个 元 素 ， 那 么 就 说 4; < 4; 。 当 排序 算法 完成 时 ， 每 个 进程 P; 将 存放 
这 样 一 组 4'， 如 果 i<j, 则 Ai'<4', 且 UmiA -UPA 。 : 

与 每 个 进程 一 个 元 素 中 的 情况 相同 ， 两 个 进程 P; 和 P) 可 能 必须 重新 分 配 它们 包含 n/p 个 元 
素 的 块 ， 使 得 其 中 一 个 得 到 较 小 的 n/p 个 元 素 块 ， 而 另外 一 个 得 到 较 大 的 n/p 个 元 素 块 。 令 A, 和 
4 是 分 别 存放 在 进程 P; 和 P; 中 的 元 素 块 。 如 果 每 个 进程 中 mp 个 元 素 块 已 经 被 排序 ， 重 分 配 就 
可 以 按 如 下 方式 有 效 进行 : 每 个 进程 将 它 的 块 发 送 给 另 一 个 进程 。 现 在 ， 每 个 进程 将 两 个 已 
排 好 序 的 块 合并 ， 只 保留 合并 块 的 适当 的 一 半 。 这 种 对 两 个 已 排序 的 块 进行 的 比较 和 划分 的 
操作 称 为 比较 分 裂 (compare-split)。 比 较 分 裂 操作 如 图 9-2 所 示 。 

如 末 假 设 进程 P; 和 Pj 相 邻 ， 而 且 通 信和 通道 是 双向 的 ， 那 么 比较 分 裂 操 作 的 通信 成 本 是 (1, + 
iw WW/p)。 随 着 块 的 增 大 ，1, 的 重要 性 下 降 ， 如 果 块 足够 大 ， 则 zt 可 以 忽略 。 这 样 ， 合 并 两 个 排 
好 序 的 有 n/p 元 素 的 块 所 需要 的 时 间 是 8B(n/p)。 
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图 9-2 比较 分 裂 操 作 。 每 个 进程 发 送 mP 个 元 素 的 块 到 其 他 进程 。 每 个 进程 将 接收 
到 的 块 与 它们 自己 的 块 合并 ， 只 保留 适合 的 那 一 半 块 。 在 这 个 例子 中 ， 
进程 己 保 留 较 小 的 那些 元 素 ， 而 进程 尸 保留 较 大 的 那些 元 素 


9.2 排序 网 络 


为 了 探索 快速 排序 方法 ,许多 网 络 都 设计 成 对 n 个 元 素 排序 的 时 间 要 远 小 于 SB(n log n)。 
这 些 排序 网 络 基于 比较 网 络 模型 ， 在 模型 中 许多 比较 操作 都 是 同时 执行 的 。 

这 些 网 络 的 主要 组 件 是 比较 器 (comparator )。 比 较 器 是 具有 两 个 输入 x 和 y 及 两 个 输出 x' 和 
y 的 设备 。 对 于 递增 比较 器 (increasing comparator)，x' = min{x, y}, y' = max{x, y}; 对 于 递 
减 比 较 器 (decreasing comparator) ，x' = max{x,y}, y' = min{x, y}。 图 9-3 给 出 两 种 类 型 的 比较 
器 的 图 示 。 当 两 个 元 素 进入 比较 器 的 输入 线 时 ， 就 对 它们 进行 比较 ， 并 且 如 果 需 要 的 话 ， 在 
它们 到 输出 线 前 进行 交换 。 我 们 用 @ 表 示 递 增 比 较 器 ， 用 @ 表示 递减 比较 器 。 排 序 网 络 通常 
由 一 连 串 的 列 组 成 ， 并 且 每 个 列 都 包含 许多 并 行 连接 的 比较 器 。 比 较 器 的 每 个 列 都 执行 置换 ， 
并 且 从 最 后 列 得 到 的 输出 按 递增 或 递 碱 磊 序 排序 。 图 9-4 显 示 一 个 典型 的 排序 网 络 。 网 络 的 深 
度 (depth) 是 指 其 包含 的 列 的 数目 。 由 于 比较 器 的 速度 是 一 个 与 技术 有 关 的 常量 ， 网 络 的 速 
度 与 深度 成 正比 。 


x = min{x, y} X = min{x, y} 
A 着 
.了 上 pan 


y = max{x, y} y = max{x, y)} 
a) 递增 比较 器 
x = max{x, y) xX = max{x, y} 
此 pa 
:了 蕊 一 
y = min{x, y) y = min{x, y) 
b) 递减 比较 器 


图 9-3 比较 器 的 图 示 
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比较 器 的 列 


图 9-4 一 个 典型 的 排序 网 络 。 每 个 排序 网 络 由 一 连 串 的 列 组 成 ， 
每 个 列 包含 许多 并 行 连接 的 比较 器 


用 软件 仿真 比较 器 ， 并 且 对 每 一 列 实行 串 行 比较 ， 可 以 将 任何 排序 网 络 转换 成 串 行 排序 
算法 。 比 较 器 通过 比较 交换 操作 进行 仿真 ， 其 中 x 与 y 进 行 比较 ， 如 果 需 要 的 话 ， 将 两 者 进行 
交换 。 

下 一 节 介 绍 在 时 间 B(log?n) 内 对 n 个 元 素 进 行 排序 的 排序 网 络 。 为 了 简单 起 见 ， 假 定 4 是 2 
的 响 。 


9.2.1 双 调 排序 


双 调 排序 网 络 排序 4 个 元 素 的 时 间 为 6(logn)。 其 关键 操作 是 重新 调整 双 调 序列 为 有 序 序 
列 。 双 调 库 列 (bitonic sequence) 是 指 序列 的 元 素 {ao, a1, .…, a,_!1} 有 以 下 属性 之 一 : 1) 存在 
下 标 i, 0 < i < n-1，, 使 得 {ao , al ，…， ai} 是 单调 递增 的 而 {a ，… 4n-1} 是 单调 递减 的 ; 2) 存 
在 循环 移 位 下 标 使 得 (1) 能 够 满足 。 例 如 ，{1, 2, 4, 7, 6, 0} 是 双 调 序列 ， 因 为 它 先 递 增 后 递减 。 
同样 ，{8, 9, 2, 1, 0,4} 也 是 个 双 调 序列 ， 因 为 它 是 序列 {0, 4, 8, 9, 2, 1} 的 循环 移 位 。 

下 面 介 绍 重新 排序 双 调 序列 获得 单调 递增 序列 的 方法 。 邻 s = {ao, al , ,ai} 是 双 调 序列 ， 
其 中 ao < a < ... 《ann-i 并 且 a, PF dn PF .FP dn o 考虑 下 面 s 的 子 序列 : 

s1 = (min{ao, any2}, min{a1, an/2+1},..., min{an/2-1, an-1)) 
s2 三 (max{a0, an/2}, maxfal, an/2+1},..., max {Gn/2—1, an—1})) (9-1) 

在 序列 s! 中 ， 存在 一 个 元 素 b; = min{ ai, qn 2w} ， 使 得 b; 以 前 的 所 有 元 素 都 来 自 原始 序列 的 
递增 部 分 ， 而 b; 以 后 的 所 有 元 素 都 来 自 递减 部 分 。 同 样 ， 在 序列 中， 存在 元 素 b'; = max{fai ， 
ax }，b'; 之 前 的 元 素 都 是 来 自 原始 序列 的 递 碱 部 分 ， 而 b' 之 后 的 所 有 元 素 都 来 自 递增 部 分 。 
这 样 ， 序 列 s, 和 s; 就 都 是 双 调 序列 。 而 且 ， 第 一 个 序列 中 的 每 个 元 素 都 小 于 第 二 个 序列 中 的 元 
素 。 原 因 是 ， b; 大 于 等 于 s! 中 的 所 有 元 素 ， b'; 小 于 等 于 s; 中 所 有 的 元 素 ， 并 且 b'; 大 于 等 于 b。 
这 样 ， 再 排列 大 小 为 n 的 双 调 序列 ， 原始 问题 就 化 简 为 再 排列 两 个 较 小 的 双 调 序列 ， 并 将 结果 
连接 起 来 。 我 们 把 大 小 为 x 的 双 调 序列 划分 成 公式 (9-1) 中 定义 的 两 个 双 调 序列 的 操作 称 为 双 调 
分 慌 (bitonic split)。 虽然 在 得 到 s, 和 sz 时 我 们 假定 初始 序列 的 递增 和 递 碱 序 列 有 相同 的 长 度 ， 
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但 双 调 划分 操作 也 可 以 应 用 于 任何 的 双 调 序列 (习题 9.3)。 

使 用 公式 (9-1) 可 以 递归 地 得 到 每 个 双 调 子 序列 的 更 短 一 些 的 双 调 序列 ， 直 到 得 到 的 子 序列 
的 长 度 为 为 止 。 到 那 时 ， 输 出 序列 按 单调 递增 顺序 排列 。 因 为 每 次 双 调 划分 操作 后 ， 问 题 的 
长 度 都 会 减 半 ， 用 来 重新 调整 双 调 序列 成 有 序 序列 所 需 划分 的 次 数目 是 log n。 应 用 双 调 划分 对 
双 调 序列 进行 排序 的 过 程 称 为 双 调 合并 (bitonic merge)。 递 归 双 调 合并 过 程 如 图 9-5 所 示 。 

原始 序列 3 5 8 9 10 12 14 20 95 90 60 40 35 23 18 0 





第 次 分 玉 3 5 8 9 10 12 14 0|95 90 60 40 35 23 18 20 
第 2 次 分 裂 3 5 8 0|10 12 14 9133 23 18 20|95 90 60 40 
第 3 次 分 裂 3 0 18 5|110 9114 12|18 20135 23 40 | 95 90 
sw 分 入 0 | 3 | 3 | 9 | 1 18 | 为 | 于 | 40 | 60 | 90 | 95 








图 9-5 通过 一 系列 log 16 双 调 分 裂 合 并 一 个 有 16 个 元 素 的 双 调 序列 


我 们 现在 有 了 合并 双 调 序列 成 为 有 序 序列 的 方法 。 这 个 方法 容易 在 比较 器 网 络 上 实现 。 
这 种 比较 器 网 络 称 为 双 调 合并 网 络 (bitonic merging network ) ， 如 图 9-6 所 示 。 网 络 包含 iog xr 
个 列 ， 每 个 列 包 含 w2 个 比较 器 ， 并 执行 一 步 双 调 合并 。 该 网 络 将 双 调 序列 作为 输入 ， 输 出 有 
序 序列 。 我 们 用 @BM[n] 表 示 有 n 个 输入 的 双 调 合并 网 络 。 如 果 在 图 9-6 中 将 @ 比 较 器 替换 为 © 
比较 器 ， 则 输入 将 按 单调 递减 的 顺序 排序 ; 这 样 的 网 络 用 e BM[m] 表 示 。 
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四 图 9-6 n= 16 的 双 调 排序 网 络 
注 : 输入 线 被 编号 为 0，1，.…，n-1， 并 且 显 示 这 些 数 字 的 二 进 制 表示 。 单独 西 出 比较 器 的 每 一 列 ; 头 个 图 
描绘 一 个 B@BMI[16] 双 调 合并 网 络 。 网 络 接收 双 调 序列 . 输出 排序 后 的 序列 。 加 

有 了 双 调 合并 网 络 后 ， 再 来 考虑 对 mn 个 无 序 元 素 的 排序 任务 。 此 项 任务 可 通过 重复 合并 长 
度 渐 增 的 双 调 序列 完成 ， 如 图 9-7 所 示 。 

现在 来 看 这 种 方法 的 工作 原理 。 两 个 元 素 x 和 y 的 序列 构成 一 个 双 调 序列 ， 因 为 如 果 x < y， 
x 和 y 都 位 于 双 调 网 络 的 递增 部 分 ， 而 递减 部 分 没有 元 素 ， 或 者 +> y， 双 调 序 列 的 递 碱 部 分 有 
两 个 元 素 x 和 y， 而 递增 部 分 没有 元 素 。 因 此 ， 任 何 无 序 序列 元 素 都 是 两 个 双 调 序列 的 连接 ， 





284 肿 9 全 


图 9-7 所 示 的 网 络 的 每 一 级 都 按照 递增 和 递减 顺序 合并 相 邻 的 双 调 序列 。 按 照 双 调 序列 的 定义 ， 
通过 连接 递增 和 递减 序列 而 得 到 的 序列 是 双 调 的 。 因 此 ， 图 9-7 所 示 网 络 的 每 一 级 的 输出 是 双 
调 序列 的 连接 ， 其 长 度 是 输入 的 两 倍 。 通 过 连接 越 来 越 多 的 双 调 序列 ， 最 后 得 到 大 小 为 ”的 双 
调 序列 。 合 并 这 个 序列 对 输入 进行 排序 。 我 们 将 具体 体现 在 这 个 方法 中 的 算法 称 为 双 调 排序 
(bitonic sort)， 而 将 网 络 称 为 双 调 排序 网 络 (bitonic sorting network ) 。 图 9-8 明 白 显 示 图 9-7 所 
示 网 络 的 前 三 个 阶段 。 图 9-6 明 白 显示 图 9-7 的 最 后 阶段 。 


ol | BBMI2) - 
[ 





国 | — | 
图 9-7 将 输入 序列 转化 成 双 调 序列 的 网 络 图 示 


注 在 这 个 例子 中 ，@BM[K] 和 © BMI[k] 表 示 输 入 大 小 为 的 双 调 合并 网 络 ， 分 别 用 = 比较 器 和 日 比较 器 。 
最 后 的 合并 网 络 (@BBMI16]) 对 输入 排序 ， 在 本 例 中 n = 16。 
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图 9-8 将 包含 16 个 无 序 元 素 的 输入 序列 转换 成 双 调 序列 的 比较 网 络 
注 : 与 图 9-6 相 比 ， 在 每 个 双 调 合并 网 络 上 的 比较 器 的 列 都 画 在 一 个 单独 的 方 框 中 ， 由 虚线 分 隔 开 。 
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1 个 元 素 双 调 排序 网 络 的 最 后 一 级 包含 具有 1 个 输入 的 双 调 合并 网 络 ， 其 深度 是 log n。 其 
他 级 进行 必 2 个 元 素 的 完全 排序 。 因 此 ， 图 9-7 所 示 网 络 的 深度 dm 由 下 列 递 推 关 系 给 出 : 
d(n) = dn/2) + logn (9-2) 


解 方程 (9-2)， 得 到 d(n) = ,i= (log?n+logn)/2=B(og?n) 。 这 个 网 络 可 在 串 行 计算 机 
上 上 实现， 产生 花费 时间 为 0n log2m) 的 排序 算法 。 双 调 排序 网 络 也 可 以 修改 成 用 于 并 行 计算 机 
上 的 排序 算法 。 下 一 节 介绍 如 何在 超 立方 体 和 格 网 连接 的 并 行 计算 机 上 实现 这 一 点 


9.2.2 将 双 调 排序 映射 到 超 立方 体 和 格 网 


本 节 将 讨论 如 何 将 双 调 排序 算法 映射 到 通用 并 行 计算 机 上 。 双 调 算法 的 关键 特点 是 它 的 
密集 通信 ， 好 的 算法 映射 必须 考虑 到 底层 互连网 络 的 拓扑 结构 。 因 此 ， 我 们 要 讨论 如 何 将 双 
调 排序 算法 映射 到 超 立 方 体 连 接 的 和 格 网 连接 的 并 行 计 算 机 的 互连网 络 中 。 

对 n 个 元 素 进行 排序 的 双 调 排序 网 络 包括 log n 级 ， 其 中 第 i 级 由 n/2 个 比较 器 的 i 列 组 成 。 如 
图 9-6 和 图 9-8 所 示 ， 比 较 器 的 每 一 列 在 n 条 输入 线 上 执行 比较 -交换 操作 。 在 并 行 计算 机 上 ， 
比较 -交换 功能 是 由 一 对 进程 执行 的 。 

1. 每 进程 一 个 元 素 

在 这 种 映射 中 ， 个 进程 中 的 每 一 个 包含 输入 序列 中 的 一 个 元 素 。 从 图 解 的 角度 来 说 ， 双 
调 排序 网 络 中 的 每 条 线 分 别 代表 不 同 的 进程 。 在 算法 的 每 一 个 步 中 ， 列 比较 器 进行 的 比较 - 交 
换 操 作 由 内 2 对 进程 执行 。 在 比较 -交换 操作 中 为 了 尽量 减少 元 素 移动 的 距离 ， 如 何 将 进程 映 
针 到 线 上 是 一个 生 要 问题 。 如 果 嘱 贡 很 差 的 话 ， 元 来 在 可 以 进行 比较 前 要 移动 和 长 的 下 高 、 
这 样 将 会 降低 性 能 。 在 理想 情况 下 ， 执 行 比较 -交换 的 线 应 该 映射 到 邻近 的 进程 ， 那 么 双 调 排 
序 形式 的 并 行 性 能 就 会 比 其 他 需要 n 个 进程 的 并 行 形式 的 性 能 更 好 。 

为 了 得 到 良好 的 上 映射， 在 双 调 排序 的 每 个 阶段 都 要 深入 研究 输入 线 组 对 的 方法 。 沽 虑 n = 
16 时 图 9-6 和 图 9-8 所 示 的 全 双 调 排序 网 络 。 在 每 个 (1 + log16)(log16)/2 = 10 的 比较 器 列 中 ， 有 
特定 的 线 比 较 - 交 换 它们 的 元 素 。 下 面 考虑 线 标号 的 二 进 制 表示 。 在 每 一 步 ， 仅 当 线 标号 有 一 
位 不 同时 ， 才 在 两 条 线 之 间 执 行 比较 -交换 操作 。 在 四 个 阶段 的 每 一 阶段 中 ， 最 低 有 效 位 标号 
不 同 的 线 在 每 个 阶段 的 最 后 一 步 执行 比较 -交换 。 在 最 后 三 个 阶段 ， 次 最 低 有 效 位 标号 不 同 的 
线 在 每 个 阶段 的 倒数 第 二 步 执行 比较 -交换 。 通 常 ， 第 ;个 最 低 有 效 位 标号 不 同 的 线 执行 log n 


-~it+D) 次 比较 -交换 。 这 个 观察 结果 ， 有 助 于 我 们 通过 把 更 频繁 执行 比较 -~ -交换 操作 的 线 映射 到 


相互 接近 的 进程 ， 有 效 地 将 线 映射 到 进程 上 。 

超 立 方 体 ”将 线 映 射 到 超 立 方 体 连接 的 并 行 计算 机 的 进程 上 比较 简单 。 比 较 -交换 操作 发 
生 在 标号 只 相差 一 位 的 线 上 。 在 超 立 方 体 上 ， 标 号 只 相差 一 位 的 进程 是 相 邻 的 〈( 见 2.4.3 节 )。 
这 样 ， 将 标号 为 ! 的 输入 线 映 射 到 标号 为 [的 进程 上 ， 其 中 ! = 0, 1; …, n-1， 这 就 是 将 输入 线 映 
射 到 超 立 方 体 进程 上 的 最 优 映 射 。 

考虑 在 d 维 超 立 方 体 ( 即 p = 24 ) 中 为 了 比较 -交换 如 何 对 进程 组 对 。 在 双 调 排序 的 最 后 一 
级 ， 输 入 被 转变 成 双 调 序列 。 在 这 一 级 的 第 一 步 ， 对 进程 标号 二 进 制 表示 的 第 d 位 ( 即 最 高 有 
效 位 ) 有 差别 的 进程 比较 -交换 它们 的 元 素 。 这样， 比较 -交换 操作 发 生 在 沿 第 d 维 的 进程 之 
间 。 同 样 地 ， 在 算法 的 第 二 步 ， 比 较 - 交 换 操作 发 生 在 沿 第 (4-1) 维 的 进程 中 。 通 常 ， 在 最 后 
一 级 的 第 ; 步 ， 进 程 沿 第 (d-(- 1D) 维 通信 。 图 9-9 显 示 双 调 排序 算法 的 最 后 一 级 的 通信 。 

大 小 为 2 的 序列 的 双 调 合并 可 在 k 维 子 立方 体 上 执行 ， 每 个 这 样 的 序列 都 被 分 配 到 不 同 的 
子 立方 体 上 (见习 题 9.5)。 而 且 ， 在 该 双 调 合并 的 第 ; 步 ， 沿 第 (k- -(i-1)) 维 进行 比较 的 进程 是 
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[388] 相 邻 的 。 图 9-10 是 对 图 9-7 的 修改 ， 说 明 超 立方 体 上 的 双 调 排序 算法 的 通信 特征 。 
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步骤 3 步 又 4 


图 9-9 双 调 排序 最 后 阶段 的 通信 。 每 条 线 都 被 映射 到 一 个 超 立方 体 进 程 ; 
每 个 连接 都 代表 进程 间 的 一 次 比较 -交换 





阶段 1 阶段 2 阶段 3 阶段 4 


图 9-10 在 超 立 方 体 上 的 双 调 排序 的 通信 特征 。 在 算法 的 
389 每 个 阶段 ， 进 程 通信 沿 着 显示 的 维 进行 


超 立 方 体 上 的 双 调 排序 算法 如 算法 9-1 所 示 。 算 法 依赖 于 两 个 函数 comp_exchange_max(i) 
和 comp_exchange_min(i)。 这 两 个 函数 沿 第 i 维 将 本 地 元 素 与 最 近 进 程 上 的 元 素 相 比较 ， 并 且 
保留 两 个 元 素 中 最 小 的 或 最 大 的 元 素 。 习 题 9.6 分 析 算 法 9-1 的 正确 性 . 





春 序 287 


算法 9-1 在 n = 24 个 进程 的 超 立 方 体 上 的 双 调 排序 并 行 形 式 。 在 这 个 算法 中 ， 
label 是 进程 的 标号 ，d 是 超 立 方 体 的 维 


l. procedure BITONIC._SORT(iabel, d) 

2. begin 

3. fori:=0tod—l1do 

4. for j := i downto 0 do 

5. 证 (i 十 1)s bit of label £ ju bit of label then 
6. comp_exchange_ max(j); 

7. else 

8. comp_exchange_min(j); 

9. 


end BITONIC_SORT 


在 算法 的 每 一 步 、 每 个 进程 执行 一 次 比较 -交换 操作 。 算 法 总 共 执行 (1 + log n)(log n)/2 次 
这 样 的 步骤 ; 因此 ， 并 行 运行 时 间 为 
Tp = O(log” n) (9-3) 


相对 于 双 调 排序 的 串 行 实现 〈 即 ， 进 程 时 间 积 为 Bdlogzm) )， 这 个 双 调 排序 的 并 行 形 式 是 
成 本 最 优 的 ， 但 与 串 行 时 间 复 杂 度 为 @(n log n) 的 基于 比较 的 排序 算法 相 比 ， 它 不 是 成 本 最 优 
的 。 

格 网 ”考虑 如 何 有 效 地 将 双 调 排序 网 络 的 输入 线 映射 到 n 个 进程 的 格 网 上 。 不 幸 的 是 ， 由 
于 格 网 的 连通 性 低 于 超 立 方 体 的 连通 性 ， 所 以 不 可 能 把 线 映射 到 进程 上 ， 使 得 每 个 比较 - 交 
换 操 作 只 出 现在 相 邻 的 进程 上 ， 相 反 ， 映 射线 时 最 频繁 的 比较 -交换 操作 出 现在 相 邻 进程 之 
上 加 。 

有 几 种 方法 将 输入 线 映射 到 格 网 进程 上 。 图 9-11 中 列 出 其 中 一 些 方法 。 图 中 的 每 个 进程 
用 映射 到 它 的 线 作为 标号 。 在 三 种 映射 中 我 们 将 重点 研究 图 9-11c 所 示 的 以 行为 主 的 混 洗 映射 ， 
另外 两 个 留 作 练习 (习题 9.7)。 





a) 以 行为 主 的 映射 b) 以 行为 主 的 蛇行 映射 c) 以 行为 主 的 混 洗 映射 


图 9-11 映射 双 调 排序 网 络 的 输入 线 到 进程 格 网 的 不 同方 法 


以 行为 主 的 混 洗 映射 的 优点 在 于 ， 执 行 比较 -交换 操作 的 进程 驻 留 在 格 网 的 方形 子 段 上 ， 
而 方形 子 段 的 大 小 与 比较 -交换 的 频率 具有 相反 的 关系 。 例 如 ， 在 双 调 排序 的 每 个 阶段 ， 执 
行 比较 交换 的 进程 〈 即 对 应 于 最 低 有 效 位 不 同 的 线 的 进程 ) 是 相 邻 的 。 通 常 ， 第 ;个 最 低 有 效 
位 不 同 的 线 被 映射 到 相距 2 个 通信 和 链 路 的 格 网 进程 。 在 以 行为 主 混 洗 映射 的 双 调 排序 
中 ， 其 最 后 阶段 的 比较 -交换 步骤 如 图 9-12 所 示 。 注 意 在 每 个 较 早 阶 段 可 能 只 会 有 这 些 步骤 











步骤 1 步骤 2 
图 9-12 格 网 上 n =16 的 双 调 排序 算法 的 最 后 一 个 阶段 ， 使 用 以 行为 主 的 
混 洗 映射 。 在 每 一 步 ， 进 程 对 比较 -交换 它们 的 元 素 。 
箭头 表明 执行 比较 -交换 操作 的 进程 对 
在 算法 的 (1 + log nn)(log n)/2 个 步骤 中 ， 相 距 一 定 距离 的 进程 比较 -交换 它们 的 元 素 。 进 程 
间 的 距离 决定 并 行 形式 的 通信 开销 。 每 个 进程 执行 的 通信 总 量 是 ZB 》 20221=7Ja ,也 
就 是 B(Vn) (见习 题 9.7)。 在 算法 的 每 步 中 ， 每 个 进程 最 多 执行 一 次 比较 ; 这 样 ， 每 个 进程 执 
391| 行 的 总 计算 量 为 G(log*n)。 它 产生 的 并 行 运 行 时 间 为 
比较 通信 
ee As 
Tp =@llog 站 + QO(Vn) 


这 不 是 成 本 最 优 的 方法 ,因为 进程 -时 间 乘 积 为 B(zl153)， 而 排序 的 串 行 复杂 度 是 B(n log 门 。 
虽然 与 双 调 排序 的 串 行 复杂 度 相 比 ， 超 立方 体 的 并 行 形式 是 最 优 的 ， 但 格 网 的 方法 不 是 最 优 
的 。 我 们 可 以 艇 得 更 好 吗 ? 回答 是 否定 的 。 当 对 z 个 元 素 进行 排序 时 ， 每 个 格 网 进程 一 个 元 素 ， 
存放 在 左上 角 进 程 的 特定 输入 元 素 将 在 右 下 角 进 程 结 束 。 为 了 做 到 这 一 点 ， 元 素 在 到 达 它 目 
的 地 前 必须 沿 着 2Vn -1 条 通信 和 链 路 移动 。 这 样 ， 在 格 网 上 排序 的 运行 时 间 以 Q(Vm) 为 界 。 我 
们 的 并 行 形式 可 以 达到 这 个 下 界 ; 这 样 ， 对 格 网 结构 它 是 浙 近 最 优 的 。 


2. 每 个 进程 一 个 元 素 块 

在 迄今 介绍 的 双 调 排序 算法 的 并 行 方式 中 ， 都 假定 进程 和 待 排序 元 素 一 样 多 。 现 在 考虑 
待 排序 元 素数 目 多 于 进程 数目 的 情况 。 

设 p 是 进程 数目 ，x 是 待 排序 元 素数 目 ， 其 中 p < n。 每 个 进程 分 配 到 包含 n/p 个 元 素 的 块 ， 
并 与 其 他 进程 合作 对 这 些 元 素 进行 排序 。 将 每 个 进程 看 作 由 n/p 个 小 进程 构成 ， 对 这 种 新 设置 
得 出 一 个 并 行 形式 。 换 旬 话 说， 设想 使 用 单 进程 模拟 n/p 个 进程 。 因 为 每 个 进程 都 在 做 n/p 个 进 
程 的 工作 ， 这 种 并 行 形式 的 运行 时 间 会 大 wp 倍 。 这 种 虚拟 进程 方法 ( 见 5.3 节 ) 导致 双 调 排序 
并 行 的 较 差 实现 。 为 了 说 明 这 一 点 ， 考 虑 超 立方 体 上 有 n 个 进程 时 的 情况 。 其 运行 时 间 将 是 
OB((n log mp)， 这 不 是 成 本 最 优 的 ， 因 为 进程 -时 间 乘 积 为 BCn log?n)。 

处 理 元 素 块 的 另 一 个 方法 是 使 用 已 在 9.1 节 提出 的 比较 -分 裂 操作 。 把 (zx/p) 元 素 块 想 象 成 
用 比较 -分 裂 操 作 进 行 排序 的 元 素 。 对 P 个 块 的 排序 问题 ， 与 使 用 比较 -分 裂 操作 而 不 是 比 
物 - 交 换 操 作 (见习 题 9.8) 对 p 个 块 执行 双 调 排序 完全 相同 。 由 于 块 的 总 数目 是 p， 双 亩 排序 
算法 总 共有 (1 + log p)(log p)/2 个 步骤 。 因 为 比较 -分 裂 操作 保存 每 个 块 中 元 素 的 初始 排序 ， 所 





#4 2 


以 在 这 些 步 又 的 最 后 ， 这 A 个 元 素 形 成 有 序 序 别 。 该 方法 与 使 用 虚拟 进程 的 并 行 方式 的 主要 差 
别 是 ， 分 配 到 每 个 进程 的 n/p 个 元 素 最 初 使 用 快速 串 行 排序 算法 在 本 地 排序 。 这 个 初始 本 地 排 
序 使 得 新 方式 更 有 效 ， 并 且 是 成 本 最 优 的 。 

超 立 方 体 ?个 进程 的 超 立 方 体 的 基于 块 的 算法 与 每 个 进程 一 个 元 素 的 算法 类 似 ， 只 不 过 
前 者 有 P 个 大 小 为 mp 的 块 而 不 是 p 个 元 素 。 此 外 ， 比 较 - 交 换 操 作 被 比较 -分 裂 操作 代替 ， 每 次 
操作 需要 B(n/p) 计 算 时 间 和 B(n/p) 通 信和 时 间 。 最 初 ， 进 程 需 要 时 间 B((n/p)iog(n/p)) 对 它们 的 n/p 
个 元 素 ( 用 合并 排序 法 ) 进行 排序 ， 然 后 执行 9dog2) 个 比较 -分 裂 步骤 。 这 种 形式 的 并 行 运 
行 时 间 为 

本 地 排序 比较 遂 信 
一 一 
r» = (Lio8s)+e (Sg:p)+e (Slo p) 
p Pp p p 
由 于 最 好 的 排序 算法 的 串 行 时 间 复 杂 度 是 B(a log n)， 加 速 比 和 效率 如 下 : 
9 = O(n logn) 

O((n/p)log(n/p)) + O(n/p)log? p) 
z , ] 


E = - 
1 ~ O((log p)/(logn)) + O((log? p)/(logn) (9-4) 
从 公式 (9-4) 中 可 以 看 出 ， 对 于 成 本 最 优化 形式 ，(log2p)/Miog n) = 0(1)。 这 样 ， 这 个 算法 
可 以 有 效 地 使 用 最 多 p = 8(2yee" ) 个 进程 。 从 公式 (9-4) 还 可 以 看 出 ， 由 于 通信 和 额外 的 工作 导 
致 的 等 效率 函数 是 B(pes "logzp)， 对 于 足够 大 的 p， 它 比 任何 多 项 式 等 效率 函数 还 要 差 。 因 此 ， 
双 调 排序 的 并 行 方式 可 扩展 性 很 差 。 
格 网 基于 块 的 格 网 方式 也 与 每 个 进程 一 个 元 素 的 方式 类 似 。 这 种 形式 的 并 行 运行 时 间 如 
下 
本 地 排序 比较 通信 .… 
ni ni i 更 
Tp 一 日 { -log 一 e (Siog?p) (与 ) 
(Slog)+ (e+ e( 疙 
注意 ， 这 种 基于 格 网 的 并 行 双 调 排序 的 通信 开销 是 (O(n/ Vp)) ， 将 它 与 基于 超 立 方 体 方 
式 的 通信 开销 (O((n logp)/p)) 相 比 ， 可 以 看 出 高 出 O(Yp /log? p) 倍 。 这 个 倍数 要 小 于 这 些 结构 
上 的 对 分 带宽 差 O(Vp) 。 这 说 明 ， 正 确 地 将 双 调 排序 映射 到 基础 格 网 中 ， 比 简单 地 把 超 立 方 
体 算法 映射 到 格 网 上 能 获得 更 好 的 性 能 。 
加 速 比 和 效率 如 下 : 


O(n logn) 


©((n/p)log(n/p)) + O((n/p) log’ p) + O(n/VD) 
| 


1 ~ O((log p)/(logn)) + O(log’ p)/(logn)) + O(VP/ logn) (9-5) 
入 公式 (9-5) 看 出 ， 对 于 成 本 最 优 的 形式 ，Vp /logn = O() 。 这 样 ， 这 个 形式 可 以 有 效 地 使 


用 最 多 p = 6(log*m) 个 进程 。 从 公式 (9-5) 还 可 以 看 出 ， 等 效率 函数 为 802 万 ) 。 这 种 形式 的 
等 效率 函数 是 指数 的 ， 因 此 比 超 立 方 体 的 甚至 更 差 。 


S$ = 


E = 
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从 对 超 立方 体 和 格 网 的 分 析 可 以 看 出 ， 双 调 排序 的 并 行 形式 效率 既 不 高 ， 扩 展 性 也 不 好 。 
这 主要 是 由 于 串 行 算法 是 次 最 优 的 缘故 。 仅 当 待 排序 的 元 素数 目 非 党 大 时 ， 对 于 很 大 的 进程 
数目 才 可 能 得 到 好 的 加 速 。 在 这 种 情况 下 ， 内 部 排序 的 效率 会 超过 双 调 排序 的 低 效 率 。 表 9-1 
概括 在 超 芯 方 体 、 格 网 以 及 环形 连接 的 并 行 计算 机 上 的 双 调 排序 的 性 能 。 


表 9-1 在 p 个 进程 上 对 n 个 元 素 进 行 并 行 形式 双 调 排序 的 性 能 


结构 E = B(1) 时 的 最 大 进程 数 对 应 的 并 行 运行 时 间 等 效率 困 数 . 
趋 江 方 体 (2 v8" ) O(n /(2 Vig’ )logn) B(p'°sr log’p) 

格 网 8(lo0g’n) O(n/log n) O(2Y? Vp) 

坏 O(log n) 9(m) (2 7p) 


9.3 贸 泡 排序 及 其 变 体 


前 一 节 介 绍 了 可 以 在 时 间 @(log2m) 对 "个 元 素 进行 排序 的 排序 网 络 。 现 在 把 注意 力 转 到 更 传 
统 的 排序 算法 。 既 然 时 间 复 杂 度 为 B(n log n) 的 串 行 算法 是 存在 的 ， 那 么 应 能 利用 B(n) 个 进程 
在 时间 B(og nn) 对 n 个 元 素 进 行 排序 。 我 们 将 看 到 ， 这 实现 起 来 很 困难 。 但 是 ， 将 许多 复杂 度 为 
e6(0) 的 串 行 算法 并 行 化 是 容易 实现 的 。 我 们 现在 介绍 基于 置 泡 排序 (bubble sort) 的 算法 。 

串 行 冒 泡 排序 算法 在 待 排序 序列 中 比较 并 交换 相 邻 的 元 素 。 给 定 序列 {al , az,，.… ar }， 算 
法 首先 将 以 下 列 顺 序 执行 -1 次 比较 -交换 操作 : (el , az ), (az , a3), .…, (ai ,av )。 这 一 步 将 最 
大 的 元 素 移 到 序列 的 末端 。 变 换 后 序列 的 最 后 一 个 元 素 被 忽略 ， 并 且 把 比较 -交换 的 步骤 应 用 
在 得 到 的 序列 {ay'，az'"，..…. , as } 上 。 经 过 mn-1 次 迭代 后 ， 序 列 就 排 好 序 了 。 在 迭代 中 ， 如 果 
役 有 交换 发 生 就 终止 ， 以 此 来 提高 冒 泡 排 序 的 性 能 。 冒 泡 排 序 算法 如 算法 9-2 所 示 。 


算法 9-2 串 行 置 泡 排序 算法 
procedure BUBBLE_SORT(n) 
begin 


]. 

2. 

3. .for i := n ~ 1 downto 1 do - 

4. for j :=1toido 

9. compare-exchange(aj, aj+1); 
6. end BUBBLE.SORT 





py 


冒 泡 排序 内 层 循环 中 的 一 次 迭代 用 时 B(n)， 算 法 总 共 需 要 B(n) 次 迭代 ， 因 此 算法 的 时 间 
复杂 度 为 6(w*)。 赎 泡 排 序 很 难 并 行 化 。 为 看 出 这 一 点 ， 考 虑 在 算法 的 每 个 阶段 如 何 执行 比 
较 - 交 换 操 作 (算法 第 4、5 行 )。 冒 泡 排 序 按 硕 序 比较 所 有 相 邻 的 对 ; 因此 ， 它 本 质 上 是 串 行 
的 。 下 面 两 小 节 将 介绍 非常 适合 并 行 化 的 冒 泡 排序 的 两 种 变 体 。 


9.3.1 奇偶 转换 


奇偶 转换 (odd-even transposition) 算法 在 n 个 阶段 内 对 n 个 元 素 (xz 是 偶数 ) 排序 ， 每 个 
阶段 需要 m/2 次 比较 -变换 操作 。 算 法 在 两 个 阶段 之 间 交 替 执 行 ， 称 为 奇数 阶段 和 偶数 阶段 。 
令 (a1, qa2,.…, a ) 为 待 排序 序列 。 在 奇数 阶段 ， 下 标 为 奇数 的 元 素 与 它们 右边 相 邻 的 元 素 比 较 ， 
如 采 它 们 未 按 顺 序 排列 ， 就 交换 它们 ; 这 样 ， 每 个 对 (oa , ay), (a3, a0, (aa ) 都 进行 比较 - 
交换 《假设 "是 偶数 )。 同 样 ， 在 偶数 阶段 ， 下 标 为 偶数 的 元 素 与 它们 右边 相 邻 的 元 素 比较 ， 
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如 果 它 们 未 按 硕 序 排列 ， 就 交换 它们 ; 这 样 ， 每 个 对 (a,， a3), (44; 05)，.… (aa Qn-1) 进行 比较 一 
交换 。 经 过 nn 个 阶段 的 奇偶 转换 ， 序 列 就 完成 排序 。 算 法 的 每 个 阶段 (不 管 是 奇数 阶段 还 是 侦 
数 阶段 ) 需要 B(n) 次 比较 ， 并 且 共 有 n 个 阶段 ， 这 样 ， 串 行 时 间 复 杂 度 就 是 B(n?*)。 奇 偶 转 换 排 
序 如 算法 9-3 所 示 ， 并 在 图 9-13 中 说 明 。 

算法 9-3 串 行 奇 偶 转 换 排序 算法 


procedure ODD-EVEN(n) 
begin 
fori:=1ton do 
begin 
让 iis odd then 
for j :=0tom/2 一 1do 
compare-exchange(a2j+1, G21+2)1 
if i is even then 
for j :=1ton/2—-1do 
10. compare-exchange(a2j, a2j;+1); 
11i. end for 
12. end ODD-EVEN 
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图 9-13 排序 ” = 8 个 元 素 ， 使 用 奇偶 转换 排序 算法 。 
在 每 个 阶段 ， 比 较 n = 8 个 元 素 
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并 行 形式 

将 奇偶 转换 排序 并 行 化 是 很 简单 的 。 在 算法 的 每 个 阶段 ， 每 对 元 素 上 的 比较 -交换 操作 同 
时 执行 。 考 虑 每 个 进程 一 个 元 素 的 情况 。 令 ?是 进程 的 数目 〈 也 是 待 排序 元 素 的 数目 )。 假 定 
进程 在 一 维 数组 中 排序 。 对 于 i =1, 2, … n， 元 素 a; 初始 驻 留 在 进程 P; 。 在 奇数 排序 阶段 ， 每 
个 奇数 下 标的 进程 将 其 元 素 与 其 右 的 相 邻 元 素 进行 比较 -交换 。 同 样 ， 在 偶数 阶段 ， 每 个 偶数 
下 标的 进程 将 其 元 素 与 其 右边 的 相 邻 元 素 进 行 比较 ~ 交换 。 算 法 9-4 给 出 这 种 并 行 形式 。 


算法 9-4 n 个 进程 环 上 奇偶 转换 排序 的 并 行 形式 


l. procedure ODD-EVEN._PAR(n) 

2. begin 

3. id := process'’s label 

4. fori:=1tondo 

5. n 

6. fi is odd then 

7. if id is odd then 

8. compare-exchange.min(lid + 1); 
9. else 
10. compare-exchange_maxlid — 1); 
11. fi is even then 

12. if id is even then 

13. compare-exchange min(id + 1); 
14. else 

15. compare-exchange .max(id — 1); 
16. end for 


17. end ODD-EVEN. PAR | 
OC 

在 算法 的 每 个 阶段 ， 奇 数 进程 或 偶数 进程 执行 一 次 与 其 右 邻 的 比较 -交换 。 从 9.1 节 可 知 ， 
这 个 阶段 需要 B(1) 的 时 间 。 由 于 总 共 要 执行 4 个 这 样 的 阶段 ,这 种 形式 的 并 行 运 行 时 间 为 @(n)。 
由 于 "个 元 素 的 最 优 串 行 排序 算法 的 复杂 度 是 B(na log n)， 这 种 奇偶 变换 排序 形式 不 是 成 本 最 
优 的 ， 因 为 算法 的 进程 ~ 时 间 乘 积 是 B(n?)。 

为 了 获得 成 本 最 优 的 并 行 形式 ， 我 们 使 用 较 少 的 进程 。 令 p 是 进程 的 数目 ， 其 中 p < n。 最 
急 ， 对 每 个 进程 分 配 n/p 个 元 素 的 块 ， 用 时 间 B((n/p)log(n/p)) 进 行内 部 排序 (使 用 合并 排序 或 
者 快速 排序 )。 然 后 ， 进 程 执行 p 个 阶段 (p/2 个 奇数 阶段 和 p/2 个 偶数 阶段 )， 执 行 比较 -分 弄 
操作 。 在 这 些 阶 段 结束 时 ， 序 列 排序 完毕 (见习 题 9.10)。 在 每 个 阶段 ， 合 并 两 个 块 执行 @(n/p) 
次 比较 ， 通 信 所 需 时 间 为 @(n/p)。 这 样 ， 该 形式 的 并 行 运行 时 间 是 


本 地 排序 
比较 通信 


n n [一 一、 re 


由 于 串 行 排序 的 时 间 复 杂 度 是 8(n log n)， 这 种 形式 的 加 速 比 和 效率 如 下 : 
O(n logn) z 


O(n/p) log(n/p)) + Oln) 
| 


1 ~ ©((log p)/(logn)) + ©(p/logn) (9-6) 


4 = 
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从 公式 (9-6) 看 出 ， 当 p = O(log 站 时 ， 奇 偶 转 换 排 序 是 成 本 最 优 的 。 这 种 并 行 形式 的 等 效 
率 国 数 是 BC2 )， 是 指数 消 数 。 因 此 这 种 形式 很 难 扩展 ， 且 只 适合 于 进程 数目 较 少 的 情况 。 


9.3.2 项 尔 排序 


奇偶 转换 排序 的 主要 局 限 在 于 ， 移 动 元 素 每 次 只 能 移动 一 个 位 置 。 如 果 序 列 只 有 少数 元 
素 是 无 序 的 ， 并且， 如 果 这 些 元 素 与 它们 合适 位 置 的 距离 是 8(n)， 那 么 串 行 算法 需要 时 间 
B(n”) 对 序列 排序 。 为 了 使 排序 比 奇偶 转换 排序 有 重大 改进 ， 就 需要 一 种 将 元 素 作 长 距离 移动 
的 算法 。 希 尔 排序 就 是 这 样 一 种 串 行 排序 算法 。 

令 n 为 待 排序 的 元 素数 ，p 为 进程 数 。 为 简单 起 见 ， 假 定 进程 的 数目 是 2 的 矫 ， 即 p = 24， 
不 过 此 算法 也 很 容易 扩展 到 有 任意 个 进程 的 情况 。 对 每 个 进程 分 配 n/p 个 元 素 的 块 。 考 虑 按 逻 
辑 一 维 数组 排列 进程 ， 进 程 在 数组 中 的 顺序 定义 待 排序 序列 的 全 局 顺序 。 算 法 包含 两 个 阶段 。 
在 第 一 阶段 ， 数 组 中 相互 远离 的 进程 间 比 较 -分 裂 它们 的 元 素 。 在 少数 几 步 内 ， 元 素 将 长 距离 
移动 ， 达 到 靠近 它们 最 后 目的 地 的 位 置 。 在 第 二 阶段 ， 算 法 转换 成 一 种 奇偶 转换 排序 ， 与 前 
一 节 介 绍 的 类 似 。 唯 一 的 差别 是 ， 奇 侦 阶段 只 在 进程 中 的 块 改变 的 时 候 才 执行 。 由 于 算法 第 
一 阶段 把 元 素 移动 到 最 后 目的 地 附近 ， 第 二 阶段 执行 的 奇偶 阶段 的 数目 就 可 能 远 小 于 p 了 。 

最 初 ， 每 个 进程 在 时 间 B(n/p log(n/p)) 内 对 其 n/p 个 元 素 的 块 进行 内 部 排序 。 然 后 ， 每 个 进 
程 与 数组 中 按 相反 顺序 对 应 的 进程 配对 。 就 是 说 ， 进 程 P (其 中 i < p/2) 与 进程 P,, ,组 对 。 每 
对 进程 执行 一 次 比较 -分 裂 操 作 。 然 后 ， 进 程 被 分 成 两 组 ， 一 组 包含 前 p/2 个 进程 ， 另 一 个 组 
包含 后 p/2 个 进程 。 此 时 ， 每 个 组 都 被 看 作 分 开 的 p/2 个 进程 ， 并 且 应 用 上 面 的 进程 配对 方案 决 
定 对 哪个 进程 执行 比较 -分 裂 操 作 。 这 个 过 程 继续 d 步 ， 直 到 每 个 组 只 包含 一 个 进程 为 止 。d = 
3 时 第 一 阶段 的 比较 分 裂 操作 如 图 9-14 所 示 。 要 注意 的 是 ， 这 并 不 是 申 行 希 尔 排 序 的 直接 并 行 
形式 , 但 它 基 于 类 似 的 原理 。 


5 SO OSE 
50o00000 


图 9-14 在 一 个 8 进程 数组 上 的 并 行 希 尔 排序 的 第 一 阶段 的 例子 
佳 算 法 的 第 一 阶段 ， 每 个 进程 都 执行 4 = log p 次 比较 -分 裂 操 作 ， 在 每 一 次 比较 -分 裂 操 
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作 中 ， 总 共 P/2 对 进程 需要 交换 它们 内 部 存放 的 wp 个 元 素 。 这 些 比较 -区 换 操作 所 需 的 通信 时 
加 取决 于 网 络 的 对 分 带宽 。 在 对 分 带 帝 为 B(p) 的 情况 下， 每 个 操作 所 需 的 总 时 间 是 BQ(n/p)。 因 
此 ， 这 个 阶段 的 上 时间 复杂 度 是 B(n log p)/p)。 第 -阶段 要 执行 1 次 奇偶 转换 排序 ， 每 次 需要 时 
旧 B(n/p)。 震 此 ， 算 法 的 并 行 运行 时 间 是 


本地 排序 第 -阶段 第 :阶段 
ear em ee Ar ep 
T。=Q{ 1 2 +o (2 )+e( 忆 ) 
一 — log 一 D(C—lo D411— 
. Pp “ Pp oP p (9-7) 


布尔 排序 的 性 能 取决 于 ! 的 值 。 如 果 ! 比 较 小 ， 那 么 算法 显著 好 于 奇偶 转换 排序 ; 如果/ 是 
BW)， 那 么 两 个 算法 的 性 能 类 似 。 习 题 9.13 探 讨 最 坏 情 况 下 的 ! 值 。 


9.4 快速 排序 


基于 比较 的 排序 的 复杂 度 下 界 是 B(na log n)， 在 到 目前 为 止 介绍 过 的 所 有 算法 中 ， 串 行 时 
间 复 杂 度 比 这 个 下 界 更 差 。 本 节 研 究 快速 排序 (quicksort) 算法 ， 其 平均 复杂 度 是 B(n log n)。 
快速 排序 是 串 行 计算 机 最 常用 的 排序 算法 之 一 ， 因 为 它 具 有 简单 、 低 开销 以 及 最 优 平均 复杂 
度 等 优点 。 

快速 排序 是 一 种 分 而 治之 的 算法 ， 通 过 递归 地 将 序列 分 成 一 些 更 小 的 子 序列 进行 排序 。 
假定 待 排 序 a 个 元 素 序列 存放 在 数组 A[1 … nn] 中 。 快 速 排序 包括 两 个 步 难 : 划分 和 征服 。 在 划 
分 步骤 中 ， 序 列 4[g … ] 被 划分 (重新 排列 ) 成 两 个 非 空 的 子 序列 A[q … s] 和 A[s +1 ..…. r]， 使 
得 第 一 个 子 序列 中 的 每 个 元 素 都 小 于 或 等 于 第 二 个 子 序列 中 的 每 个 元 素 。 在 征服 步骤 中 ， 递 
轨 地 应 用 快速 排序 对 子 序列 排序 。 因 为 子 序列 4[g …s] 和 4fs +1 … 7r] 已 排 好 序 ， 并 且 第 一 个 子 
序列 的 元 素 都 小 于 第 二 个 子 序列 的 元 素 ， 于 是 整个 序列 就 排 好 序 了 。 


算法 9-5 串 行 快速 排序 算法 





]. procedure QUICKSORT (A, g,r) 
2. 

3. ifq < r then 

4. begin 

5. x :一 4[9] 

0. 5 :一 9; 

7. fori:=g++l1tordo 

8. if A[i) « x then 

9. begin 

10. 3 :一 5 十 ] 

11. swap(A[s], A[i]); 
12. end if 

13. swap(A[g], 4fs]); 

14. QUICKSORT (A, a, s): 

14. QUICKSORT (A,s + 1,7); 
16. end if 


17. end QUICKSORT 


ARSoRT 
如 何 把 序列 4[gq … 门 划分 成 两 个 部 分 ， 并 使 得 - -部 分 的 所 有 元 素 都 小 于 另 一 部 分 的 元 素 ? 
通常 的 方法 是 从 A[q .… 7] 中 选择 一 个 元 素 *， 并 用 这 个 元 素 把 序列 A[g .… 四 划分 成 两 部 分 ， 一 部 
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分 的 元 素 小 于 等 于 x*， 而 另 一 部 分 的 元 素 大 于 Xx。 元素 x 被 称 为 主 元 (pivot)。 快 速 排序 算法 在 
算法 9-5 中 介绍 。 这 个 算法 任意 选择 序列 4[g … 7] 中 的 第 一 个 元 素 作为 主 元 。 快速 排序 的 操作 
如 图 9-15 所 示 。 


a) 
b) 


C) 





d) 


ET 


图 9-15 排序 序列 大 小 n = 8 的 快速 排序 算法 的 例子 


划分 长 度 为 的 序列 的 复杂 度 是 @(k)。 快 速 排序 的 性 能 受到 划分 序列 方法 的 重大 影响 。 考 
虑 这 样 一 个 例子 , 把 大 小 为 的 序列 划分 成 两 个 子 序列 ， 一 个 子 序 列 的 大 小 为 1， 另 一 个 为 k-1， 
这 是 一 种 很 差 的 划分 。 此 例 的 运行 时 间 由 递归 关系 T(n) = T(n=1) + 8(n) 给 出 ， 其 解 为 T(n) = 
8B(n”)。 考 虑 另 一 种 划分 ， 把 序列 划分 成 两 个 大 小 几乎 相等 的 分 别 具 有 | 上 /12| 和 [k/2] 个 元 素 
的 子 序列 。 这 种 情况 下 ， 运 行 时 间 由 递归 关系 T(n) = 27(n/2) + 8@(n) 给 出 ， 其 解 为 T(n) = 
8 (n log n)。 第 二 种 划分 产生 最 佳 算法 。 虽 然 快速 排序 在 最 坏 情 况 下 的 复杂 度 为 0(n”)， 但 其 
平均 复杂 度 要 好 得 多 ; 对 随机 排列 的 输入 序列 进行 快速 排序 时 ， 需 要 进行 的 比较 -交换 操作 的 
平均 次 数 是 1.4 n log 7， 它 是 新 近 最 优 的 。 选 择 主 元 有 多 种 方法 ， 比 如 ， 序 列 元 素 较 少 时 ， 主 
元 可 以 是 所 有 数 的 中 间 值 ， 主 元 也 可 以 是 随机 选择 的 元 素 。 对 于 特定 的 输入 序列 ， 某 些 主 元 
选择 策略 会 比 其 他 的 更 有 优势 。 


9.4.1 并 行 快速 排序 


有 多 种 方法 可 以 将 快速 排序 并 行 化 。 首 先 ， 考 虑 已 在 3.2.1 节 的 递归 分 解 中 简单 讨论 过 的 
一 种 自然 的 并 行 形式 。 从 算法 9-5 的 第 14 和 15 行 可 见 ， 对 QUICKSORT 的 每 次 调用 ， 数 组 被 分 
成 两 部 分 ， 每 一 部 分 以 递归 的 方式 求解 。 排 序 较 小 数组 表示 为 两 个 可 以 并 行 求解 的 完全 独立 
的 子 问题 。 因 此 ， 并 行 化 快速 排序 算法 的 一 个 方法 是 : 最 初 在 单 进程 上 执行 ， 接 着 ， 当 算法 
执行 递归 调用 (第 14 和 15 行 ) 时 ， 把 其 中 一 个 子 问 题 分 配给 男 一 个 进程 。 到 此 ， 每 个 进程 都 
用 快速 排序 算法 对 数组 进行 排序 ， 并 且 分 配 它 的 子 问题 之 一 到 其 他 的 进程 。 当 数组 不 能 再 细 
分 时 ， 算 法 结束 。 在 结束 后 ， 每 个 进程 持 有 数组 的 一 个 元 素 ， 并 且 通 过 遍历 进程 可 以 恢复 排 
序 的 顺序 ， 这 一 点 将 在 后 面 介绍 。 上 它 
pe … 中 分 成 两 个 更 小 的 数组 A[q .… s] 和 Al[s +1 .… 二 
进程 必需 划分 最 初 的 数组 4[1 … n]， 其 运行 时 间 以 Q&(n) 为 下 界 。 a 
ee 

前 面 的 并 行 形式 的 主要 局 限 是 ， 它 串 行 执行 划分 步骤 。 我 们 将 会 看 到 ， 在 其 后 的 形式 中 ， 
执行 并 行 划分 对 于 获得 有 效 的 并 行 快速 排序 是 必需 的 。 为 看 出 这 一 点 ， 考 虑 递归 公式 T(n) = 
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2T(n/2) + 6B(n)， 它 给 出 最 优 主 元 选择 的 快速 排序 的 复杂 度 。 项 @(n) 是 由 数组 分 块 产生 的 。 将 
此 复杂 度 与 算法 的 整体 复杂 度 B@(n log 站 比较 。 从 这 两 种 复杂 度 中 ， 我 们 可 以 认为 快速 排序 包 
售 9(log 站 步 ， 每 一 步 需要 用 8(m 的 时 间 划 分 数组 。 因 此 ， 如 果 划 分 步骤 在 时 间 9@(1) 内 完成 ， 
需要 用 8(m) 个 进程 ， 那 么 可 能 获得 总 的 并 行 运行 时 间 B6(iog n)， 这 样 就 得 到 成 本 最 优 的 形式 。 
但 是 。 如 果 不 对 划分 步 又 并 行 化 ， 为 了 维持 成 本 最 优 ， 最 好 的 办 法 就 是 在 时 间 B(n) 内 ， 只 用 
O(log n) 个 进程 对 n 个 元 素 排 序 (参看 习题 9.14)。 因 此 ， 并 行 化 划分 步骤 有 可 能 得 到 更 快 的 并 
行 形式 。 

在 前 一 段 中 ， 我 们 得 到 启示 ， 我 们 可 以 用 B(n) 个 进程 在 时 间 8B(1) 内 将 n 维 数组 划分 成 两 个 
更 小 的 数组 。 但 是 ， 对 于 大 多 数 并 行 计算 模型 而 言 ， 要 做 到 这 一 点 很 困难 。 唯 一 已 知 的 算法 
是 用 二 抽象 PRAM 模 型 的 算法 。 由 于 通信 开销 ， 在 实际 共享 地 址 空间 和 消息 传递 并 行 计算 机 
中 ， 划 分 步骤 所 需 的 时 间 比 B(1) 长 。 下 面 几 小 节 将 给 出 3 种 不 同 的 并 行 形式 : 一 个 用 于 CRCW 
PRAM ， 一 个 用 于 共享 地 址 空间 体系 结构 ， 一 个 用 于 消息 传递 平台 。 这 三 种 形式 都 通过 并 行 
执行 划分 步骤 对 快速 排序 算法 并 行 化 。 


9.4.2 用 于 CRCW PRAM 的 并 行 形式 


下 面 介 绍 快速 排序 的 一 种 并 行 形式 ， 用 于 在 "个 进程 的 随意 CRCW PRAM 上 对 n 个 元 素 排 
序 。 回 忆 2.4.1 节 ，CRCW PRAM 是 一 种 并 发 读 、 并 发 写 的 并 行 随机 访问 计算 机 ， 这 种 计算 机 
以 随意 的 方式 解决 写 冲 突 。 换 名 话说 ， 当 多 个 进程 试图 同时 写 同 一 个 内 存 地 址 时 ， 只 允许 一 
个 随意 选 出 的 进程 进行 写 操作 ， 而 其 他 的 进程 都 被 忽略 。 

执行 快速 排序 的 过 程 可 以 形象 化 为 构建 一 棵 二 又 树 。 在 这 棵 树 中 ， 主 元 就 是 根 ， 小 于 或 
等 于 主 元 的 元 素 放 到 左 子 树 上 ， 大 于 主 元 的 元 素 放 到 右 子 树 上 。 图 9-16 显 示 根 据 图 9-15 所 示 
的 快速 排序 算法 构建 的 二 又 树 。 通 过 在 这 棵 树 上 执行 有 序 遍 历 ， 可 以 得 到 有 序 序列 。PRAM 
形式 就 是 建立 在 快速 排序 的 这 种 解释 的 基础 上 。 





图 9-16 由 执行 快速 排序 算法 产生 的 二 叉 树 
注 : 树 的 每 一 层 代表 一 个 不 同 的 数组 划分 迄 代 。 如 果 主 元 选择 是 最 优 的 ， 那 么 树 的 高 度 是 @(log 门 ， 
这 也 是 迭代 的 次 数 ，。 
算法 通过 选择 主 元 元 素 开始 ， 将 数组 划分 成 两 部 分 : 一 部 分 是 小 于 主 元 的 那些 元 素 ， 另 一 
部 分 是 大 于 主 元 的 元 素 。 然 后 ， 后 面 的 每 个 主 元 元 素 被 并 行 选 择 ， 每 个 元 素 分 配给 一 个 新 的 
子 数 组 。 这 种 形式 并 不 重 排 元 素 ; 相反 ， 由 于 所 有 进程 可 以 在 固定 时 间 内 读 取 主 元 ， 它 们 知 
道 元 素 应 该 分 配 到 哪个 子 数组 ( 较 小 的 或 是 较 大 的 子 数组 )。 这 样 它 们 可 以 进行 下 一 次 迭代 。 
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算法 9-6 用 于 CRCW PRAM 并 行 快速 排序 形式 的 二 叉 树 构建 程序 


1 . procedure BUILD_IREE (A{l...nl) 
2. begin 
3. for each process i do 
4. begin 
9， root :=i; 
6. parenti := root; 
7. lefichild[i} := rightchildli] := n+ 1; 
8. end for 
9. repeat for each process i root do 
10. begin 
] 1. if (A[i] < Alpareni;]) or 
(A{i] = Alparent;] and i <parent;) then 
12. begin 
13. leftchild{parenti] := i; 
14. ifi = leftchild{l parent; | then exit 
14. else parenti := leftchild{ parent:]; 
16. end for 
17. else 
18. begin 
19, rightchildi parent] := i; 
20. ifi = rightchildlparent; | then exit 
21. else parent; := rightchild[parent); 
22. end else 


23. end repeat 
24. end BUILD_TREE 





构建 二 叉 树 的 算法 如 算法 9-6 所 示 。 待 排序 的 数组 存放 在 数组 4[1 ... n] ， 元 素 A[i] 被 分 配给 
进程 i。 数 组 lefrchild[1 … n] 和 rightchild[1 … n] 记 录 主 元 的 子 元 素 ， 对 于 每 个 进程 ， 局 部 变量 
parent; 存放 其 元 素 为 主 元 的 进程 标号 。 最 初 ， 所 有 的 进程 将 各 自 的 进程 标号 写 到 第 5 行 代码 的 
变量 root 中 。 由 于 并 发 写 操作 是 随意 的 ， 实 际 上 只 有 其 中 一 个 标号 真正 被 写 到 root 中 。 对 于 每 
个 进程 i,， 值 A[roon] 被 用 来 作为 第 一 个 主 元 ， 变 量 root 的 值 被 复制 到 变量 pareni; 中 。 接 下 来 ， 
那些 数组 元 素 的 值 小 于 ALparent; ] 的 进程 将 它们 的 进程 标号 写 到 lefrchild[parent, ]， 而 那些 值 大 
于 A[parenti ] 的 进程 将 进程 标号 写 到 xighichildlparent; ]。 这 样 ， 所 有 那些 元 素 属于 较 小 划分 的 
进程 将 它们 的 标号 写 到 ieftchild[parent; ]， 元 素 属 于 较 大 划分 的 进程 将 标号 写 到 rightchila 
[parenti]。 由 于 并 发 写 操作 是 随意 的 , 只 有 两 个 值 被 写 到 这 些 位 置 一 一 一 个 是 leftchild[parent;]， 
为 一 个 是 rightchild[parent; ]。 在 下 一 次 迭代 中 ， 数 组 被 分 成 两 个 更 小 的 数组 ， 而 这 两 个 值 将 
变 成 持 有 主 元 元 素 的 进程 的 标号 。 算 法 继续 进行 ， 直 到 “个 主 元 元 素 被 全 部 选 出 。 当 进程 的 元 
素 变 成 主 元 时 ， 该 进程 就 退出 。 二 叉 树 的 构建 如 图 9-17 所 示 。 在 算法 的 每 一 次 迭代 过 程 中 ， 
构建 树 的 一 层 所 需 时 间 为 8(1)。 这 样 ， 构 建 二 又 树 算法 的 平均 时 间 复 杂 度 为 8(log n)， 因 为 树 
的 平均 高 度 是 B(log n) (参看 习题 9.16)。 : 

建立 一 又 树 后 ， 算 法 确定 排序 后 的 数组 中 每 个 元 素 的 位 置 。 算 法 遍历 二 又 树 ， 并 且 在 任 
一 元 素 的 左 子 树 和 右 子 树 中 保存 元 素 个 数 的 计数 。 最 后 ， 在 时 间 B(1) 内 把 每 个 元 素 放 到 合适 
的 位 置 ， 数 组 就 排 好 序 了 。 遍 历 二 叉 树 和 确定 每 个 元 素 位 置 的 算法 留 作 练 习 (习题 9.15 )。 在 
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有 1 个 进程 的 PRAM 中 ， 这 个 算法 的 平均 运行 时 间 是 Biog 六。 这 样 ， 其 总 的 进程 -时 间 乘 积 为 
B(n log n)， 它 是 成 本 最 优 的 。 


1 2 3 4 5 6 7 8 


2 3 4 5 6 7 8 
,) BEI 1 





b) 


d) €) 
[4] {54} 
加 加 
3 7 6 
f) 
[1] {33} [5] {82} 


[2] {21) [6] {33) [8] {72} 


D] {13} [7] {40} 


图 9-17 对 a) 中 所 示 数 组 执行 PRAM 算 法 的 情况 


注 : 算法 执行 中 数组 leftchild 和 rightchild 显 示 在 c)、d)、e) 中 。f) 显示 由 算法 建立 的 二 叉 树 。 每 个 节点 
由 进程 (在 方 括 号 中 ) 标记 ， 并 且 元 素 存 放 在 那个 进程 里 (在 大 括号 中 )。 元 素 是 主 元 。 在 每 个 节点 
上 ， 有 具有 比 主 元 小 的 元 素 的 进程 归 人 节点 左边 的 组 ， 元 素 大 于 主 元 的 进程 归 和 右边 的 组 。 这 两 个 组 构 
成 原始 数组 的 两 个 划分 。 对 于 每 一 划分 来 说 ， 主 元 元 素 是 从 两 个 组 中 随机 选 出 的 ， 这 两 个 组 构成 节点 
的 子 节点 。 


9.4.3 用 于 实际 体系 结构 的 并 行 形式 


现在 转向 更 实际 的 并 行 体系 结构 一 一 由 互连网 络 连接 的 有 p 个 进程 的 系统 。 首 先 ， 我 们 主要 
讨论 共享 地 址 空间 系统 的 算法 开发 ， 然 后 ， 说 明 如 何 改 变 这 个 算法 使 其 适用 于 消息 传递 系统 。 


1. 共享 地 址 空间 并 行 形式 
共享 地 址 空间 系统 快速 排序 形式 的 工作 原理 如 下 : 令 4 是 有 n 个 元 素 的 需要 排序 的 数组 ，p 
怎 进程 数目 。 对 每 个 进程 分 配 有 mp 个 元 素 的 连续 块 ， 并 且 进 程 的 标号 决定 排序 后 序列 的 全 局 








#4 az 


顺序 。 令 A; 是 分 配给 进程 P; 的 元 素 的 块 。 

算法 从 选择 主 元 开始 ， 并 且 将 这 个 主 元 向 所 有 进程 广播 。 每 个 进程 P; 接收 到 主 元 后 ， 对 
分 配 的 元 素 块 进行 重 排 ， 将 它 分 成 两 个 子 块 ， 一 个 子 块 5; 包含 所 有 的 小 于 主 元 的 元 素 ， 另 一 
个 子 块 L 包含 所 有 大 于 主 元 的 元 素 。 这 个 局 部 重 排 用 快速 排序 的 分 裂 循 环 (collapsing the 
loops ) 方法 来 实现 。 算 法 的 下 一 步 重新 排列 原始 数组 4 中 的 元 素 ， 使 得 所 有 小 于 主 元 的 元 素 
( 即 S=US ) 都 存放 在 数组 的 开始 位 置 ， 而 所 有 大 于 主 元 的 元 素 ( 即 L=U,L ) 都 存放 在 数 
组 的 末端 。 

当 全 局 重 排 完 成 后 ， 算 法 着 手 将 所 有 进程 划分 为 两 个 组 ， 把 那些 较 小 的 元 素 $ 的 排序 任务 
分 配给 第 一 组 ， 较 大 的 元 素 Z 的 排序 任务 分 配给 第 二 组 。 所 有 这 些 步 又 都 通过 递归 调用 并 行 快 
速 排序 算法 来 完成 。 注 意 ， 通 过 同时 划分 进程 和 原始 数组 ， 每 组 进程 都 可 以 独立 地 进行 。 当 某 
一 子 块 的 元 素 只 分 配给 一 个 进程 时 ， 递 归结 束 ， 此 时 进程 使 用 串 行 快速 排序 算法 对 元 素 排序 。 

根据 块 5 和 L 的 相对 大 小 将 进程 划分 为 两 个 组 。 具 体 就 是 ， 前 面 的 Sip/n+0.5] 个 进程 用 
来 对 较 小 元 素 组 5 排序 ， 剩 下 的 进程 用 来 对 较 大 元 素 组 L 排 序 。 注 意 ， 上 面 公式 中 的 数 0.5 用 来 
保证 以 最 均衡 的 方式 分 配 进程 。 


例 9.1 有 效 的 并 行 快速 排序 


图 9-18 用 20 个 整数 和 5 个 进程 的 例子 说 明 这 个 算法 。 第 一 步 ， 围 绕 着 主 元 元 素 (本 例 中 的 
主 元 元 素 是 7)， 每 个 进程 局 部 重 排 各 自 最 初 负责 的 四 个 元 素 ， 使 得 小 于 或 等 于 主 元 的 元 素 被 
移 到 数组 的 局 部 分 配 部 分 的 开始 处 〔 如 图 中 阴影 部 分 所 示 )。 当 局 部 重 排 完 成 后 ， 进 程 再 执行 
全 局 重 排 ， 得 到 如 图 中 所 示 的 第 三 个 数组 (后 面 将 简单 地 讨论 如 何 执行 )。 在 第 二 步 ， 进 程 被 
分 成 两 个 组 。 第 一 组 包括 进程 {P。, P! } ， 负 责 对 那些 值 小 于 等 于 7 的 元 素 排序 。 第 二 组 包括 进 
程 {P;, P; , Ps}， 负 责 对 值 大 于 7 的 元 素 排 序 。 注 意 这 两 个 进程 组 的 大 小 是 根据 大 于 或 小 于 主 
元 数组 的 相对 大 小 决定 的 。 现 在 ， 对 每 个 进程 组 以 及 子 数组 ， 递 归 地 重复 上 面 的 主 元 选择 、 
局 部 重 排 以 及 全 局 重 排 的 步骤 ， 直 到 子 数组 分 配给 -个 进程 为 止 ， 这 时 进程 就 在 本 地 进行 排 
序 。 同时 要 注意 ， 这 些 最 后 本 地 子 数组 的 大 小 通常 是 不 同 的 ， 因 为 它们 取决 于 被 选 出 来 作为 
主 元 的 元 素 的 多 少 。 居 

为 了 全 局 重 排 4 中 的 元 素 为 或 小 或 大 的 子 数组 ， 在 重 排 结 束 时 ， 我 们 需要 知道 每 个 A 中 的 
每 个 元 素 最 终 被 排 在 了 哪里 。 图 9-19 的 底部 显示 这 种 重 排 。 用 这 个 方法 ， 按 照 进程 标号 的 弟 
增 顺序 ， 通 过 连接 所 有 进程 中 的 不 同 块 % ， 就 能 得 到 5。 同 样 ， 以 同样 的 顺序 连接 不 同 的 块 L 
就 能 得 到 L。 因 此 ， 对 于 进程 P, 而 言 ， 它 的 S; 子 块 的 第 j 个 元 素 将 存放 在 》， ,15,1+j 位 置 ， 它 
的 L, 子 块 的 第 /个 元 素 将 存放 在 n~ 了 ”iL1-j 位置。 

用 4.3 节 介绍 的 前 级 和 操作 很 容易 计算 出 这 些 位 置 。 要 计算 出 两 个 前 级 和 ， 一 个 包括 8 子 
块 的 大 小 ， 另 一 个 包括 L; 子 块 的 大 小 。 令 Q 和 R 是 大 小 为 p 的 数组 ， 分 别 存 放 这 两 个 前 级 和 。 


它们 的 元 素 为 
o ->s R= DL 


往 香 对 于 每 个 进程 P; ，Q; 是 最 终 数组 中 存储 比 主 元 小 的 元 素 的 开始 位 置 ， 而 R, 是 最 终 数 
组 中 存储 比 主 元 大 的 元 素 的 结束 位 置 。 一 旦 确定 这 些 位 置 ， 使 用 大 小 为 4 的 辅助 数组 A'， 聊 很 
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窑 易 对 数组 4 进行 整体 重 排 。 这 些 步骤 如 图 9-19 所 示 。 需 要 注意 的 是 ， 上 面 的 前 级 和 定义 与 
4.3 节 介绍 的 略 有 不 同 ， 这 是 指 计算 出 的 位 置 Q，( 或 R; ) 并 不 包括 S$; (或 L; ) 本 身 。 这 种 类 型 
的 前 级 和 有 时 候 称 为 无 包含 前 级 和 。 


| 局 部 重 排 后 


全 局 重 排 后 


pivot=17 
Pp : 


fl [20 10lisTe | 局 部 重 排 后 . 


全 局 重 排 后 


局 部 重 排 后 


全 局 重 排 后 





Ps 
i 101918 112|ulisl17lislishie 局 部 重 排 后 








”图 9-18 执行 有 效 的 共享 地 址 空间 的 快速 排序 算法 的 例子 
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图 9-19 数组 的 有 效 全 局 重 排 


分 析 快速 排序 算法 共享 地 址 空间 形式 的 复杂 性 取决 于 两 方面 : 一 方面 是 将 某 一 数组 划分 
成 两 个 子 数组 的 时 间 ， 这 两 个 子 数组 中 ， 一 个 的 所 有 元 素 小 于 主 元 ， 另 一 个 的 所 有 元 素 大 于 
主 元 ; 另 一 方面 是 选择 各 种 主 元 而 导致 均衡 划分 的 等 级 。 在 本 节 ， 为 了 简化 分 析 ， 假 定 主 元 
选择 总 是 产生 均衡 划分 。 正 确 的 主 元 选择 及 其 对 总 并 行 性 能 的 影响 在 9.4.4 市 中 说 明 。 

对 于 给 定 有 n 个 元 素 和 p 个 进程 的 数组 ， 快 速 排序 算法 的 共享 地 址 空间 形式 需要 执行 四 个 
步骤 : i) 确定 并 广播 主 元 ; ii) 局 部 重 排 分 配 到 每 个 进程 的 数组 ; ii) 在 全 局 重 排 后 的 数组 中 ， 
确定 本 地 的 元 素 将 要 存放 的 位 置 ，iv) 执行 全 局 重 排 。 第 一 步 对 共享 地 址 空间 广播 用 有 效 的 递 
归 倍 增 方 法 ， 可 以 在 时 间 @(log p) 内 执行 。 第 二 步 用 传统 的 快速 排序 算法 围绕 主 元 元 素 分 裂 ， 
可 以 在 时 间 B@(n/p) 内 完成 。 第 三 步 用 前 组 和 操作 可 以 在 时 间 B(log p) 内 完成 。 最 后 ， 第 四 步 需 
要 将 本 地 元 素 复 制 到 最 后 的 目的 地 ， 至 少 需 要 B(n/p) 时 间 。 这 样 ， 划 分 n 个 元 素 的 数组 所 需 的 
总 体 时 间 复 杂 度 为 @(n/p) + 8(log p)。 对 于 两 个 子 数组 的 每 一 个 ， 这 个 过 程 要 在 一 半 的 进程 上 
递归 地 重复 ， 直 到 数组 被 分 成 p 部 分 为 止 ， 那 时 ， 每 个 进程 用 串 行 快速 排序 算法 对 分 配给 它 的 
数组 进行 排序 。 因 此 ， 并 行 算法 的 总 体 时 间 复杂 度 是 : 





局 部 排序 数组 分 裂 
一 一 一 一 一 一 一 一 一 一 一 一 
e (10g) +e (Slogp) + Oogp) 
P= = ae 者 
Dp“ p (9-8) 


上 面 的 公式 的 通信 开销 反映 在 项 9(logp) 中 ， 它 导致 总 等 效率 函数 为 9p log*p)。 有 趣 的 
是 ,注意 算法 的 整体 可 扩展 性 由 执行 主 元 广播 与 前 级 和 操作 的 时 间 决 定 。 
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2. 消息 传递 并 行 形式 
消息 传递 系统 的 快速 排序 形式 和 常用 的 共享 地 址 空间 形式 的 结构 相同 。 但 是 ， 共 享 地 址 


空间 中 数组 4 和 全 局 重 排 数组 4 都 存放 在 共享 内 存 中 ,并 且 可 以 被 所 有 进程 访问 ， 现 在 这 两 个 


数组 都 显 式 地 分 布 在 各 个 进程 中 。 这 就 使 得 划分 4 的 任务 多 少 更 困难 一 些 。 

特别 是 ， 在 消息 传递 版 本 的 并 行 快速 排序 中 ， 每 个 进程 都 存放 数组 A 的 n/p 个 元 素 。 使 用 
两 阶段 方法 ， 可 以 把 数组 围绕 某 一 主 元 元 素 划 分 开 。 在 第 一 阶段 (与 共享 地 址 空间 形式 相似 )， 
存放 在 进程 P; 的 本 地 数组 h; 被 局 部 划分 成 值 小 于 主 元 和 值 大 于 主 元 的 子 数组 $; 和 L; 。 在 第 二 阶 
段 ， 算 法 首先 决定 哪些 进程 负责 递归 地 对 小 于 主 元 的 子 数组 (也 就 是 5=U,S，) 进行 排序 ， 
哪些 进程 负责 递归 地 对 大 于 主 元 的 子 数组 (也 就 是 L=U,L ) 进行 排序 。 当 这 些 做 完 后 ， 进 
程 将 它们 的 数组 $j 和 上 i 发送 给 对 应 的 进程 。 此 后 ， 进 程 已 经 被 划分 成 两 组 ， 一 个 是 对 于 5 的 ， 
另 一 个 是 对 于 LL 的， 然后 算法 递归 地 进行 下 去 。 当 每 个 子 数组 分 配给 一 个 单 进程 时 ,递归 结束 ， 
至 此 排序 在 本 地 进行 。 

用 于 决定 哪些 进程 负责 排序 9 和 Z 的 方法 与 共享 地 址 空间 形式 的 方法 是 一 样 的 ， 也 就 是 
试 划 分 进程 以 求 匹配 两 个 子 数组 的 相对 大 小 。 令 ps 和 pi 分 别 是 为 排序 8 和 所 分 配 的 进程 的 数 
目 。ps 个 进程 中 的 每 一 个 都 将 存放 小 于 主 元 子 数组 中 的 1SWps 个 元 素 ， 而 pi 个 进程 中 的 每 一 个 
都 将 存放 大 于 主 元 子 数组 中 的 ILi/pi 个 元 素 。 每 个 进程 P; 用 于 确定 把 它 的 S$; 和 上; 元 素 发 送 到 哪 
里 的 方法 ， 所 遵循 的 策略 和 在 共享 地 址 空间 形式 的 总 体 策略 一 样 。 也 就 是 说 ， 不同 的 $; (或 L,) 
子 数组 将 存放 在 依 进程 号 而 定 的 S$ (或 L) 的 连续 位 置 。 负 责 这 些 元 素 的 实际 的 进程 ， 是 由 划 
分 $ (或 L) 成 p; (或 pi) 个 相等 大 小 的 部 分 决定 的 ， 并 且 可 以 使 用 前 级 和 操作 来 计算 。 注 意 每 
个 进程 P 可 能 需要 划分 它 的 8 (或 L; ) 子 数组 成 多 个 部 分 ， 并 且 将 每 部 分 发 送 给 不 同 的 进程 。 
这 种 情况 的 出 现 是 因为 它 的 元 素 可 能 被 分 配 到 $ (或 L) 中 跨越 超过 一 个 进程 的 位 置 。 总 的 说 
来 ， 每 个 进程 可 能 必须 发 送 其 元 素 到 两 个 不 同 的 进程 ， 但 是 出 现 需 要 两 个 以 上 划分 的 情况 也 
是 很 有 可 能 的 。 

分 析 对 快速 排序 消息 传递 形式 的 分 析 ， 将 反映 共享 地 址 空间 形式 的 相应 的 分 析 。 

考虑 有 p 个 进程 和 O(p) 对 分 带宽 的 消息 传递 并 行 计算 机 。 划 分 n 个 元 素 的 数组 所 需要 的 时 
间 包 括 ， 广 播 主 元 素 的 时 间 B(log 六， 划分 数组 本 地 分 配 部 分 的 时 间 B(wp)， 执 行 前 组 和 与 决 
定 进程 的 划分 大 小 和 不 同 $; 、L; 子 数组 的 目标 的 时 间 B(log p)， 以 及 发 送 和 接收 各 种 数组 所 需 
的 时 间 。 最 后 一 步 取 决 于 进程 如 何 映射 到 系统 结构 上 ， 以 及 与 每 个 进程 需要 与 其 通信 的 最 大 
进程 数 。 通 常 ， 这 种 通信 步 难 包含 多 对 多 私自 通信 (因为 某 一 进程 可 以 终止 从 所 有 其 他 进程 
接收 元 素 )， 其 时 间 复 杂 度 的 下 界 是 B@(n/p)。 因 此 ， 划 分 的 总 时 间 复 杂 度 是 B(n/p) + B(log p)， 
这 与 共享 地 址 空间 形式 的 复杂 度 非常 相似 。 结 果 ， 总 运行 时 间 也 与 公式 (9-8) 中 的 结果 相同 ， 
并 且 算 法 有 相似 的 等 效率 函数 B(p log’p)。 


9.4.4 主 元 选择 


在 并 行 快速 排序 算法 中 我 们 没有 涉及 主 元 选择 。 主 元 选择 是 很 困难 的 ， 而 且 它 对 算法 性 
能 有 显著 的 影响 。 考 虑 第 一 个 主 元 是 序列 中 最 大 元 素 的 情况 。 这 时 ， 第 一 次 分 裂 后 有 一 个 进 
程 只 分 配 到 一 个 元 素 ， 剩 下 的 p-1 个 进程 将 分 配 剩 下 的 n-1 个 元 素 。 因 此 ， 将 面临 一 个 问题 : 
序列 只 减少 了 一 个 元 素 ， 但 有 p-1 个 进程 参与 排序 操作 。 虽 然 这 是 人 为 的 例子 ， 但 它 说 明 并 行 
化 快速 排序 算法 遇 到 的 一 个 重要 问题 。 理 想 状 态 下 ， 分 裂 应 使 得 每 个 划分 具有 原 数 组 的 并 非 
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盛 足 轻 重 的 部 分 。 


一 个 元 素 作 为 这 个 划分 的 主 元 。 这 与 串 行 快速 排序 算法 中 的 随机 主 元 选择 类 似 。 虽 然 这 种 方 
法 适用 于 串 行 快 速 排序 ,但 它 不 适合 并 行 形式 。 通 过 一 个 主 元 选择 不 当 的 例子 ， 就 能 明白 其 
原 内 。 人 在 串 行 快速 排序 中 ， 这 将 导致 一 个 子 序 列 明 显 大 于 另 一 个 子 序 列 的 划分 。 如 果 后 来 的 
所 有 主 元 选择 都 是 好 的 ， 一 个 坏 的 主 元 也 会 增加 总 工作 量 ， 但 增加 量 至 多 等 于 子 序 列 长 度 。 
这 样 ， 不 会 严重 降低 串 行 快速 排序 的 性 能 。 然 而 ， 在 并 行 形 式 中 ， 一 个 坏 的 主 元 可 能 导致 有 
的 进程 空 亲 的 划分 ， 而 且 这 种 空闲 在 算法 的 执行 过 程 中 一 直 存 在 。 

如 果 每 个 进程 的 元 素 最 初 都 均匀 分 布 ， 那 么 就 能 导出 一 个 好 的 主 元 选择 方法 。 此 上 时， 最 
急 存 放 在 每 个 进程 的 wp 个 元 素 构 成 所 有 mm 个 元 素 的 典型 样本 。 换 句 话 说， 每 个 有 mp 个 元 素 的 
子 序列 的 中 值 ， 非 常 接 近 于 整个 x 元 素 序 列 的 中 值 。 假 设 最 初 分 布 相同 时 ， 为 什么 这 是 一 个 很 
好 的 主 元 选择 方案 ?由 于 每 个 进程 上 的 元 素 分 布 与 4 个 元 素 的 总 体 分 布 相同 ， 将 第 一 步 选 择 的 
中 值 作为 主 元 就 是 整体 中 值 很 好 的 近似 。 由 于 选择 的 主 元 很 接近 于 整体 中 值 ， 每 个 进程 中 大 
约 一 半 元 素 小 于 主 元 ， 而 另 一 半 元 素 大 于 主 元 。 因 此 ， 第 一 次 分 裂 产生 两 个 划分 ， 每 个 划分 
大 约 有 n/2 个 元 素 。 同 样 ， 与 初始 列表 中 /2 个 较 小 ( 较 大 ) 元 素 一 样 ， 分 配给 组 中 的 每 个 进程 
的 元 素 具 有 同样 的 分 布 ， 这 里 的 组 是 负责 对 小 于 主 元 的 元 素 进 行 排序 的 进程 组 (和 负责 对 大 
于 证 元 的 元 素 进行 排序 的 进程 组 )。 这 样 ， 分 裂 不 仅 能 保持 负载 平衡 ， 而 且 可 以 保证 进程 组 中 
的 元 素 是 均匀 分 布 的 。 因 此 ， 对 进程 的 子 组 应 用 同样 的 主 元 选 树 方案 可 以 不 断 选择 到 好 的 主 
也 。 

但 是 ， 我 们 真正 可 以 假定 每 个 进程 里 的 wp 个 元 素 与 总 序列 中 的 元 素 有 相同 的 分 布 吗 ? 答 
案 要 根据 实际 应 用 而 定 。 在 某 些 应 用 中 ， 随 机 选择 主 元 或 者 选择 中 值 作为 主 元 能 很 好 运行 ， 
但 在 另 一 些 应 用 中 两 种 方案 都 不 能 提供 好 的 性 能 。 习 题 9.20 和 9.21 提 出 另 两 种 主 元 选择 方案 。 


9.5 桶 和 样本 排序 


桶 排序 (bucket sort) 算法 是 对 值 均匀 分 布 在 区 间 fe, 5] 上 的 元 素数 组 进行 排序 的 常见 申 
行 排序 算法 。 这 个 算法 中 ， 区 间 [a, 5b] 被 分 成 m 个 相等 大 小 的 子 区 间 、 称 为 桶 (bucket)， 每 个 
元 素 被 放 在 适当 的 桶 中 。 由 于 n 个 元 素 均匀 地 分 布 在 区 间 [a, b] 上 ， 每 个 桶 中 的 元 素数 自 大 约 
契 n/m。 算 法 然后 在 每 个 桶 中 对 这 些 元 素 进 行 排序 ， 生 成 排 好 序 的 序列 ， 算 法 运行 时 间 为 
O(n log (n/m))。 如 有 果 m =B(n)， 则 为 线性 运行 时 间 B(n)。 注 意 ， 桶 排序 的 时 间 复 杂 度 之 所 以 可 
以 达到 这 么 低 ， 是 因为 假定 待 排序 的 "个 元 素 均匀 地 分 布 在 区 间 [a, bj] 上、 

并 行 化 桶 排序 很 简单 。 令 ?是 待 排序 的 元 素数 目 ，p 是 进程 数目 。 一 开始 ,. 分 配给 每 个 进 
程 含有 n/p 个 元 素 的 块 , 而 将 桶 的 数目 选择 为 m = P。 桶 排序 的 并 行 形式 有 三 个 步 又。 在 第 一 步 ， 
每 个 进程 将 其 含 wp 个 元 素 的 块 划分 成 p 个 子 块 ， 分 别 放 人 P 个 桶 中 。 这 是 可 能 的 ， 因 为 每 个 进 
程 都 知道 区 间 [a, 5b) 以 及 由 此 而 来 的 每 个 桶 的 区 间 。 在 第 二 步 ， 每 个 进程 发 送 其 子 块 到 适当 的 
进程 。 执 行 完 这 一 步 后 ， 每 个 进程 只 有 属于 分 配给 它 的 桶 的 元 素 。 第 三 步 ， 每 个 进程 使 用 最 
优 串 行 排序 算法 对 它 的 桶 进行 内 部 排序 。 


但 是 ， 假 设 输 入 元 素平 均 分 布 在 区 间 [a, b] 上 是 不 现实 的 。 在 多 数 情况 下 ， 实 际 的 输入 可 


能 不 具有 这 样 的 分 布 ， 或 者 其 分 布 是 未 知 的 。 因 此 ， 使 用 桶 排序 可 能 会 导致 各 个 桶 中 的 元 素 
明显 不 同 ， 从 而 降低 其 性 能 。 这 种 情况 下 ， 一 种 称 为 样本 排序 (sample sort) 的 算法 能 明显 提 
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升 性 能 。 样 本 排序 的 思想 很 简单 。 从 n 元 素 序列 中 选 出 大 小 为 的 样本 ， 桶 的 范围 由 排序 样本 
以 及 从 结果 中 选取 m1 个 元 素 决 定 。 这 些 元 素 ( 称 为 分 割 器 ) 将 样本 分 成 mm 个 大 小 相等 的 桶 。 
在 定义 桶 之 后 ， 算 法 的 执行 与 桶 排序 相同 。 样 本 排序 的 性 能 取决 于 样本 的 大 小 s， 以 及 它 从 nn 
元 素 序 列 中 选择 样本 的 方法 。 

下 面 考虑 一 种 分 割 器 选择 方案 ， 对 于 所 有 的 桶 它 能 保证 在 结束 时 每 个 桶 中 的 元 素数 目 大 
致 相等 。 令 "是 待 排序 的 元 素数 目 ，m 是 桶 的 数目 。 方 案 的 工作 原理 如 下 : 将 n 个 元 素 分 成 m 块 ， 
每 块 大 小 为 mw， 用 快速 排序 对 每 个 块 进行 排序 。 从 每 个 排序 后 的 块 中 选择 m-1 个 均匀 分 隔 的 
元 素 。 从 所 有 块 中 选择 出 的 第 (wm-1) 个 元 素 就 是 用 来 决定 桶 的 样本 。 这 个 方案 保证 每 个 桶 结 
束 时 的 元 素数 目 少 于 2n/m (参考 习题 9.28 ) 。 

如 何 并 行 化 分 割 器 选择 方案 ? 令 p 是 进程 的 数目 。 和 桶 排序 中 的 一 样 ， 令 m = p; 这 样 ， 
在 算法 的 结尾 ， 每 个 进程 只 包含 仅 属于 一 个 桶 的 元 素 。 对 每 个 进程 分 配 n/p 个 元 素 的 块 ， 进 程 
对 这 个 块 进行 串 行 排序 。 然 后 ， 从 排序 后 的 块 中 选择 出 p-1 个 均匀 分 隔 的 元 素 。 每 个 进程 将 其 
p-1 个 样本 元 素 发 送 到 一 个 进程 ， 此 进程 称 为 Po。 进 程 Po 再 对 PCD-J) 个 样本 元 素 进 行 串 行 排序 ， 
并 选择 p-1 个 分 裂 器 。 最 后 ， 进 程 Po 将 p-1 个 分 裂 器 广播 给 所 有 其 他 进程 。 至 此 ， 算 法 将 按 
与 桶 排序 相同 的 方法 继续 下 去 。 此 算法 如 图 9-20 所 示 。 


Po : Pi Pp : 
2217 113]1812117[1114120| 6 [10124115|9 121| 3 |16|191231 4 ll12|518| ”初始 元 素 分 布 
Po : hi Pp, 
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ea A 所 
21314|5165|7|8|9|iolulizllsll4|15|l6lpzllslls|2o|21|22|23|24| 。 最 终 元 素 分 本 
图 9-20 在 三 个 进程 上 对 一 个 有 24 个 元 素 的 数组 进行 样本 排序 的 例子 


分 析 下面， 我 们 在 p 个 进程 和 对 分 带宽 为 OO) 的 消息 传递 计算 机 上 ， 分 析 样 本 排序 的 时 
间 复 杂 度 。 

对 n/p 个 元 素 进行 内 部 排序 所 需 的 时 间 是 @((n/p)log(n/p))， 选 择 p-1 个 样本 元 素 所 需 的 时 间 
是 @(p)。 发 送 p-1 个 元 素 到 进程 Pp 和 收集 操作 类 似 (参考 4.4 节 )， 所 需 时 间 是 6(pz) 。 在 进程 
Po 对 p(p-1) 个 样本 元 素 进 行内 部 排序 所 需 时 间 是 6(p?log p)， 而 选择 p-1 个 分 割 器 所 需 时 间 是 
B(p)。 使 用 一 对 多 广播 将 p-1 个 分 割 器 发 送 到 其 他 的 进程 ( 见 4.1 节 )， 所 需 时 间 是 @(p log p)。 
每 个 进程 可 以 通过 执行 p-1 次 二 分 搜索 ， 将 p-1 个 分 割 器 插入 到 它 的 局 部 排序 后 的 含有 n/p 个 元 
素 的 块 中 。 这 样 ， 每 个 进程 将 其 块 划 分 成 p 个 子 块 ， 每 个 桶 中 存放 一 个 子 块 。 划 分 所 需 时 间 为 
B(p log(n/p))。 每 个 进程 然后 将 子 块 发 送 到 相应 的 进程 ( 即 桶 中 )。 这 一 步 的 通信 时 间 很 难 精 确 
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计算 ， 因 为 它 取 决 于 通信 的 子 块 大 小 ， 而 这 些 子 块 的 大 小 可 以 在 0 和 mp 之 间 任 意 改 变 。 因 此 ， 
通信 时 间 的 上 界 是 O(nz) + OU log p)。 
如 果 假 定 存 放 在 每 个 进程 中 的 元 素 是 均匀 分 布 的 ， 那 么 每 个 子 块 大 约 有 (n/p’) 个 元 素 。 
这 种 情况 下 ， 并 行 运行 时 间 为 
局 部 排序 排序 样本 块 划分 


n rR 
Tp = 昌 (2 log 2 ) + (Pp? log p) + (。 log 2 + On/p) + O(p logp) (9-9) 
Pp p pb 


这 时 等 效率 函数 是 B(p’log p)。 如 果 使 用 双 调 排序 对 p(p-1) 个 样本 元 素 进 行 排序 ， 那 么 对 
样本 进行 排序 的 时 间 将 是 BC log p)， 而 等 效率 函数 降低 到 B(plog p) (见习 题 9.30)。 


9.6 其 他 排序 算法 


在 本 章 简 介 中 曾 提 到 过 ， 排 序 算法 有 很 多 种 ， 但 不 能 在 此 一 一 讨论 。 不 过 ， 本 节 将 简 
要 介绍 另 两 种 排序 算法 ， 这 两 种 算法 不 论 在 理论 上 还 是 实际 上 都 是 很 重要 的 。 我 们 对 这 两 
种 方案 作 简 要 讨论 。 从 书目 评注 ( 见 9.7 节 ) 中 可 以 找到 这 两 种 算法 以 及 其 他 算法 的 参考 文 
献 。 


9.6.1 枚 举 排序 ~ 


到 目前 为 止 ， 讨 论 的 所 有 算法 都 基于 比较 -交换 操作 。 本 节 考 虑 基于 枚 举 排 序 (enumera- 
tion sort) 的 算法 ， 不 使 用 比较 -交换 。 枚 举 排序 的 基本 思想 是 确定 每 个 元 素 的 秩 。 一 个 元 素 
qi 的 秩 (rank) 是 指 待 排序 序列 中 小 于 a 的 元 素 的 数目 。a; 的 秩 可 以 用 来 将 其 放置 在 排 好 序 序列 
中 正确 的 位 置 。 基 于 枚 举 排序 的 并 行 算 法 有 好 几 种 。 这 里 我 们 介绍 适用 于 CRCW PRAM 机 型 
的 算法 。 这 形式 可 在 时 间 B(1) 内 使 用 2 个 进程 对 n 个 元 素 进 行 排序 。 

假定 对 CRCW PRAM 同 一 内 存单 元 的 并 发 写 将 导致 在 这 个 单元 存储 所 有 被 写 值 的 和 ( 见 
“4.1)。 考 虑 在 二 维 网 格 中 排列 亚 个 进程 的 情况 。 算 法 包含 两 步 : 第 一 步 ， 进 程 的 每 个 列 / 计 
算 值 小 于 ai 的 元 素 的 数目 ; 第 二 步 ， 每 个 第 一 行 的 进程 Piy 将 a; 放 到 由 进程 的 秩 决 定 的 正确 位 
置 。 算 法 如 算法 9-7 所 示 。 它 用 辅助 的 数组 C[1 … 要 存放 每 个 元 素 的 秩 。 算 法 中 的 关键 步 又 是 
第 7 行 和 第 9 行 。 在 那里 ， 如 果 元 素 4 四 小 于 4 帮 ， 则 每 个 进程 P 在 C 四 中 写 1， 否 则 写 0。 由 于 
添加 - 写 ( additive-write ) 冲突 分 辨 格式 ， 这 些 指令 的 作用 是 对 值 小 于 4 胃 的 元 素 进行 计数 ， 
从 而 计算 出 它 的 秩 。 算 法 的 运行 时 间 是 B(1)。 习 题 9.26 中 讨论 对 此 算法 的 修改 ， 使 之 适用 于 
不 同 的 并 行 结构 。 


算法 9-7 在 CRCW PRAM 上 用 添加 - 写 冲 突 分 状 的 枚 举 排 序 


l. ”procedure ENUM._SORT (n) 

2. i 

3. for each process Pi,; do 

4. C[/] := 0; 

5. for each process P; ; do 

6. if (A[i] < ALj]) or (A[i] = 4[ 门 andi < )) then 
7. CE := 1; 

8. else 

9. 


LT := 0,; 


心 
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10. for each process Pi do 
11. A[C[)]] := AL[)]; 
12. end ENUM_SORT 


9.6.2 基数 排序 


基数 排序 (radix sort) 算法 依赖 于 待 排序 元 素 的 二 进 制 表示 。 令 5 是 元 素 二 进 制 表 示 中 的 
位 数 。 基 数 排序 算法 每 次 检测 待 排序 元 素 的 位， 其中” < bp。 基 数 排序 需要 br 次 迭代。 在 第 
次 选 代 中 ， 根 据 其 第 ;个 有 r 位 的 最 低 有 效 块 来 排序 。 为 了 使 基数 排序 能 正确 进行 ，ovr 次 排序 
中 的 每 一 次 都 必须 是 稳定 的 。 一 个 排序 算法 是 稳定 的 ， 是 指 输出 元 素 保 持 输入 元 素 的 顺序 和 
值 不 变 。 基 数 排序 是 稳定 的 ， 是 指 当 任何 两 个 r 位 的 块 相等 时 保持 这 两 个 块 的 输入 顺序 不 变 。 
使 用 枚 举 排序 (参考 9.6.1 节 ) 是 实现 中 间 b/r 次 2' 基数 排序 最 常用 的 方法 ， 因 为 可 能 的 取 值 范 
围 [0 … 2 -1 很 小 。 对 于 这 样 的 情况 ， 枚 举 排序 更 优 于 任何 基于 比较 的 排序 算法 。 

在 n 个 进程 的 消息 传递 计算 机 上 考虑 a 个 元 素 基 数 排序 的 并 行 形式 。 并 行 基数 排序 算法 如 
算法 9-8 所 示 。 算 法 的 主 循环 (第 3 ~ 17 行 ) 对 r 个 位 的 块 执行 b/r 次 枚 举 排序 。 枚 举 排 序 由 函数 
prefix_sum() 和 parallel_sum() 执 行 ， 这 两 个 函数 与 4.1 节 和 4.3 节 中 描述 的 函数 相似 。 在 内 层 循 环 
(第 6 ~ 15 行 ) 的 每 次 迭代 中 ， 基 数 排序 决定 r 个 位 的 值 为 的 元 素 的 位 置 。 基 数 排序 将 所 有 具有 
这 同一 值 的 元 素 求 和 ， 然 后 再 分 配 到 各 个 进程 。 变 量 rank 保 存 每 个 元 素 的 位 置 。 在 循环 的 结尾 
(第 16 行 )， 每 个 进程 将 其 元 素 发 送 到 相应 的 进程 。 进 程 的 标号 决定 排序 后 的 元 素 的 全 局 顺序 。 


算法 9-8 ”并 行 基数 排序 算法 


l. procedure RADIX_SORT(A,7) 

2 begin 

3. fori := 0tob/r—1do 

4. begin 

5. offset := 0; 

6. for j :=0to2—1do 

7. begin 

8. flag := 0.; 

9. if the i™ least significant r-bit block of A[P.] = j then 
10. flag := 了 

11. index := prefix sum(flag) 

12. if flag = 1 then 

13. rank := offset + index; 

14. offset := parallel_sum(flag); 

15. endfor 

16. each process Px send its element A{LP] to process Pony’ 
17. endfor 


18. end RADIX_SORT 





注 : 在 这 个 算法 中 ， 待 排序 数组 A[1 … n ] 的 每 个 元 素 被 分 配 到 一 个 进程 。 函 数 prefix_sum 0 计算 特征 
变 世 的 前 给 和， 而 函数 paraliel_sum 0) 返回 特征 变量 的 总 和 。 
如 4.1 市 和 4.3 节 所 示 ， 在 n 个 进程 的 消息 传递 计算 机 上 ，parallel_sum() 和 prefix_sum() 运 算 
的 复杂 度 为 Bllog n)。 第 16 行 的 通信 步 台 的 复杂 度 是 B(n)。 这 样 ， 这 个 算法 的 并 行 运行 时 间 为 
Tb =(b/r)2'(O(ogn) + O(n)) 
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9.7 书目 评注 


Knuth[Knu73] 讨 论 排 序 网 络 及 其 历史 。 排 序 网 络 能 否 在 时 间 O(log nn) 内 对 nn 个 元 素 进行 排 
序 的 问题 在 很 长 一 段 时 间 内 未 得 到 解决 。1983 年 ，Ajtai，Komlos 和 Szemeredi[AKS83] 发 现 了 


可 以 在 时 间 O(log 站 内 使 用 OUn log n) 个 比较 器 对 个 元 素 进行 排序 的 排序 网 络 。 不 过 ， 他 们 排 


序 网 络 的 弟 数 太 大 (高达 数 千 )， 因 而 是 不 可 行 的 。Batcher[Bat68] 发 现 了 双 调 排序 网 络 ， 他 
还 发 现 了 奇偶 排序 网 络 。 这 些 是 第 一 批 能 够 在 时 间 O(log?n) 内 对 n 个 元 素 进 行 排序 的 网 络 。 
Stone[Sto71] 将 双 调 排序 映射 到 完全 混 洗 的 互连网 络 ， 在 时 间 O(log?n) 内 使 用 n 个 进程 对 n 个 元 
素 进行 排序 。Siegel[Sie77] 指 出 双 调 排序 也 可 以 在 超 立 方 体 上 执行 ， 所 需 时 间 是 O(log2n)。 
Johnsson[Joh84] 和 Fox 等 [FJL*88] 讨 论 双 调 排 序 的 基于 块 的 超 立 方 体形 式 。 算 法 9-1 就 采用 
[FJL*88] 的 方法 。Thompson 和 Kung[TK77] 介 绍 格 网 连接 计算 机 上 的 双 调 排序 的 混 洗 行 优先 索 
引 形式 。 他 们 还 说 明 如 何 把 奇偶 合并 排序 与 蛇 形 行 优先 索引 一 起 使 用 。 Nassimi 和 Sahni[NS79] 
介绍 一 种 格 网 的 行 优先 索引 的 双 调 排序 形式 ， 其 性 能 与 混 洗 行 优先 索引 形式 一 样 。 格 网 奇偶 
合并 的 改进 版 本 由 Kumar 和 Hirschberg[KH83] 提 出 。 比 较 - 分 裂 操 作 可 用 多 种 方法 来 实现 ， 
Baudet 和 Stevenson[BS78] 介 绍 一 种 执行 这 种 操作 的 方法 。Hsiao 和 Menon[HM80] 发 现 了 基于 双 
调 排序 (习题 9.1) 的 执行 比较 -分 裂 操 作 的 另 一 种 方法 ， 这 种 方法 不 需要 附加 的 内 存 。 

Knuth[Knu73] 讲 述 奇偶 转换 排序 。Knuth[Knu73] 和 KungfKun80] 给 出 一 些 较 早 的 使 用 奇偶 
转换 的 并 行 排序 的 参考 文献 。 奇 偶 转换 排序 的 基于 块 的 扩展 算法 由 Baudet 和 Stevenson[BS78 给 
出 。 另 一 个 基于 块 的 奇偶 转换 排序 的 变 体 使 用 双 调 合并 -分 裂 ， 由 DeWitt，Friedland，Hsiao 
和 Menon[DFHM82] 给 出 。 他 们 的 算法 使 用 p 个 进程 ， 运 行 时 间 是 O(n 十 n log(n/p))。 与 Baudet 
和 Stevenson[BS78] 的 算法 相 比 ， 此 算法 更 快 ， 但 是 每 个 进程 需要 4n/p 个 存储 单元 ，DeWitt 等 
的 算法 只 需要 (n/p) +1 个 存储 单元 执行 比较 -分 裂 操 作 。 : 

9.3.2 节 讲述 的 希 尔 排 序 算法 由 Fox 等 [FJL'88] 提 出 。 他 们 指出 ， 当 n 增 加 时 最 终 奇 偶 转 换 
出 现 最 差 性 能 ( 换 句 话说 ， 即 需要 p 个 阶段 ) 的 概率 将 会 减少 。Quinn[Qui88] 给 出 另 一 种 基于 
原始 串 行 算法 [She59] 的 希 尔 排序 算法 。 四 

串 行 快速 排序 算法 由 Hoare[Hoa62] 提 出 。Sedgewick[Sed78] 提 供 一 批 有 关 实 现 算法 细节 及 
其 如 何 影响 性 能 的 很 好 的 参考 资料 。Robin[Rob75] 提 出 并 分 析 随 机 主 元 选择 方案 。Sedgewick 
[Sed78] 提 出 单 进程 上 的 序列 划分 算法 ， 而 Raskin[Ras78]、Deminet[Dem82] 以 及 Quinn[Qui88] 
则 使 用 该 算法 的 并 行 形式 。CRCW PRAM 算 法 (9.4.2 节 ) 由 Chlebus 和 Vrto[CV91] 提 出 。 已 经 
有 多 人 提出 PRAM 和 共享 地 址 空间 并 行 计 算 机 上 的 许多 其 他 基于 快速 排序 的 算法 ， 能 鲍 使 用 
”8G(n) 个 进程 在 时 间 B(og n) 内 对 n 个 元 素 进 行 排序 。Martel] 和 Gusfield[MG89] 对 CRCW PRAM 
提出 一 个 快速 排序 算法 ， 平 均 需 要 B() 空 间 。Heidelberger，Norton 和 Robinson[HNR90] 发 现 
了 有 读 取 - 相 加 能 力 的 适用 于 共享 地 址 空间 并 行 计算 机 的 算法 。 他 们 的 算法 的 平均 运行 时 间 是 
B(log n)， 并 可 改 用 在 商用 共享 地 址 空间 计算 机 上 。 习 题 9.17 讲 述 的 快速 排序 的 超 立 方 体形 式 


由 Wagar[Wag87] 提 出 。 他 的 超 快速 排序 算法 使 用 基于 中 值 的 主 元 选择 方案 ， 并 且 假 定 每 个 进 


程 中 的 元 素 都 有 相同 的 分 布 。 他 的 试验 结果 显示 ， 超 快速 排序 比 超 立 方 体 上 的 双 调 排序 快 。 
Fox 等 [FJL*88] 实 现 了 另 一 种 主 元 选择 方案 (习题 9.20)。 当 每 个 进程 上 的 元 素 分 布 不 均匀 时 ， 
此 方案 显著 地 改进 超 快速 排序 的 性 能 。 Plaxton[Pla89] 描 述 p 个 进程 超 立 方 体 上 的 快速 排序 算法 ， 
能 在 时 间 O((n log n)/p + (n log”?p)/p + logp log(n/p)) 内 对 n 个 元 素 进行 排序 。 此 算法 使 用 需要 
时 间 O((n/p)log log p + logzp log(n/p)) 的 并 行 选择 算法 确定 最 好 的 主 元 。 快 速 排序 的 格 网 形式 
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(习题 9.24) 由 Singh，Kumar，Agha 和 Tomlinson[SKAT91a] 提 出 。 他 们 也 对 算法 作 了 修改 ， 
使 得 每 一 步 的 复杂 度 降 低 6(log p) 倍 。 

1956 年 fsaac 和 Singleton 首 次 提出 了 串 行 桶 排序 算法 。Hirschberg[Hir78] 提 出 EREW PRAM 
机 型 上 的 桶 排序 算法 。 算 法 用 "个 进程 ， 在 9(log ) 时 间 对 nn 个 冰 围 在 [0 … n-1] 的 元 素 进行 排 
序 。 此 算法 的 副作用 是 消去 重复 元 素 。 算 法 需要 B(m?) 的 空间 。Hirschberg[Hir78] 对 算法 作 了 
推广 ， 使 得 重复 的 元 素 仍 保留 在 排序 后 的 数组 中 。 推 广 的 算法 使 用 n'*'* 个 进程 ， 需 要 时 间 
B(k log n) 对 n 个 元 素 进 行 排序 ， 其 中 k 是 任意 整数 。 

品行 样本 排序 算法 由 Frazer 和 McKellar[FM70] 提 出 。 并 行 样本 排序 算法 (9.5 节 ) 由 Shi 和 
Schaeffer[SS90] 提 出 。 人 们 还 提出 了 几 种 不 同 并 行 结 构 上 的 样本 排序 并 行 形式 。Abali， 
Ozguner 和 Bataineh[AOB93] 介 绍 一 种 分 割 器 选择 方案 , 保证 在 每 个 桶 结束 时 的 元 素数 目 为 n/p。 
在 p 个 进程 的 超 立 方 体 上 ， 他 们 的 算法 平均 需要 时 间 B((n log n)/p + P log*n) 对 nn 个 元 素 进 行 排 
序 。Reif 和 Valiant[RV87] 介 绍 一 种 样本 排序 算法 ， 在 n 个 进程 的 超 立 方 体 连接 计算 机 上 ， 以 很 
高 概率 在 时 间 O(log nn) 内 对 nn 个 元 素 排序 。Won 和 Sahni[WS88] 以 及 Seidel 和 George[SG88] 提 出 
样本 排序 的 变 体 的 一 种 并 行 形式 ， 称 为 莉 排 序 (bin sort) [FKO86]。 

人 们 也 提出 了 其 他 多 种 并 行 排序 算法 。 各 种 并 行 排序 算法 可 以 有 效 地 在 PRAM 机 型 或 共享 
地 址 空间 计算 机 上 执行 。AKkI[Ak185]、Borodin 和 Hopcroft[BH82] ，Shiloach 和 Vishkin[SV81]， 
Bitton、DeWitt、Hsiao 和 Menon[BDHM84] 都 对 此 作 了 很 好 的 评述 。Valiant [Val75] 提 出 了 用 于 
共享 地 址 空间 SIMD 型 计算 机 上 的 排序 算法 ， 使 用 合并 进行 排序 。 它 用 m2 个 进程 对 "个 元 素 进 
行 排 序 的 时 间 为 O(log n log log 由。Reischuk[Rei81] 最 早 提 出 一 种 算法 ， 在 "进程 的 PRAM 上 对 
"个 元 素 进行 排序 的 时 间 为 edlog n)。Cole[Col88] 提 出 了 一 个 并 行 合并 排序 算法 ， 在 EREW 
PRAM 上 对 n 个 元 素 进行 排序 的 时 间 为 G(log n)。Natvig[Nat90] 证 明了 渐进 公式 中 隐 含 一 个 非常 
大 的 常量 。 实 际 上 ， 只 要 nn 小 于 7.6 x 10”， 用 时 为 @(log?n) 的 双 调 排序 就 要 比 用 时 B(log n) 的 合 
并 排序 好 。Plaxton[Pla89] 提 出 了 一 种 超 立 方 体 排 序 算 法， 称 为 光滑 排序 (smoothsort)， 在 那 
种 结构 上 算法 运行 比 过 去 已 知 的 所 有 算法 都 快 。Leighton[Lei85a] 提 出 了 一 种 称 为 列 排序 
(columnsort) 的 排序 算法 ， 包 含 一 系列 排序 以 及 随后 的 初等 矩阵 运算 。 列 排序 是 Batcher 的 奇 
偶 排序 的 一 种 推广 。Nigam 和 Sahni[NS93] 介 绍 了 基于 Leighton 的 列 排序 的 算法 ， 适 用 于 含有 总 
线 的 可 重 配置 格 网 ， 在 ?个 进程 的 格 网 上 对 n 个 元 素 进行 排序 的 时 间 为 0(1)。 


习题 


9.1 考 虐 执行 比较 -分 裂 操作 的 下 述 方法 : 令 xi, , … , 六 是 在 进程 P 以 递增 顺序 存放 的 
元 素 ， 令 ,万 , … ,yn 是 在 进程 Pj 以 递 碱 顺 序 存 放 的 元 素 。 进 程 Pi 发 送 x, 到 P; ， 进 程 P; 将 其 与 y， 
进行 比较 ， 然 后 将 较 大 的 元 素 发 送 回 进 程 P; 并 保存 较 小 的 元 素 。 这 同一 过 程 在 各 个 对 (x,, y,)， 
(xX3 ,3 ),.…, (Xi 和 ) 之 间 重 复 进行 。 如 果 对 于 任何 一 对 (xi , y/)，1 < 1<k， 出 现 x 2 y!/， 就 不 需 
要 再 交换 。 最 后 ， 每 个 进程 对 自己 的 元 素 排序 。 说 明 这 个 方法 正确 地 执行 比较 -分 裂 曲 作 。 分 
析 其 运行 时 间 ， 并 比较 这 个 方法 与 课文 中 提出 的 方法 的 优 缺 点 。 这 种 方法 更 适合 于 MIMD 并 
行 计算 机 还 是 SIMD 并 行 计 算 机 ? 

9.2 说 明 9.1 闻 中 对 元 素 块 定义 的 《关系 是 一 个 偏 序 关 系 。 

提示 : 一 个 关系 是 偏 序 (partial ordering) 的 ， 如 果 它 是 自 反 的 、 反 对 称 的 和 传递 的 。 

9.3 考虑 序列 s = {ao, al, ..., dn_1}, 1 是 2 的 笑 。 在 下 列 情况 ， 证 明 序 列 s, 和 s; 可 以 通过 执 
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行 双 调 分 裂 操 作 获 得 ， 这 个 操作 是 9.2.1 节 中 介绍 的 ， 对 于 序列 s 注 足 属性 1) St 和 和 ?> 都 是 双 调 序 
列 ，2) 5 的 元 素 小 于 ss 的 元 素 。 

a) 3 是 双 调 序列 ， 其 中 aog&ai 和 ga apPzaplDP Pa I。 

b) s 是 双 调 序列 ， 其 中 对 于 某 个 i (0&<i&<n-1), ao<ag...《a, apzao>.>za 。 

c) s 在 移动 其 元 素 后 ， 成 为 递增 递减 双 调 序列 。 

9.4 ”在 双 调 排序 的 并 行 形式 中 ， 对 n 个 元 素 进行 排序 时 假设 有 n 个 进程 可 用 。 如 果 只 有 n/2 
个 进程 叮 用 ， 说 明 如 何 修 改 算法 。 

9.5 ”证明 在 双 调 排序 的 超 立 方 体形 式 中 ， 大 小 为 2: 的 序列 的 每 个 双 调 合并 都 是 在 k 维 超 立 
方 体 上 执行 的 ， 并 且 各 个 序列 被 分 配 到 分 离 的 超 立 方 体 上 。 

9.6 证明 算 法 9-1 所 示 的 双 调 排序 的 并 行 形 式 是 正确 的 。 特 别 是 ， 证 明 算 法 能 正确 地 比 
较 -- 交 换 元 素 ， 且 元 素 最 终 在 适当 的 进程 中 。 

9.7 考虑 在 格 网 连接 的 并 行 计算 机 上 双 调 排序 算法 的 并 行 公式 。 计 算 下 列 形式 的 确切 并 
行 运 行 时 间 : 

a) 如 图 9-11a 所 示 ， 在 使 用 存储 转发 路 由 的 格 网 上 用 行 优先 映射 ; 

b) 如 图 9-11b 所 示 ， 在 使 用 存储 转发 路 由 的 格 网 上 用 行 优先 的 蛇行 映射 ; 

c) 如 图 9-11c 所 示 ， 在 使 用 存储 转发 路 由 的 格 网 上 用 行 优先 的 混 洗 映射 ; 

另外 ， 确 定 使 用 开通 路 由 时 上 述 运行 时 间 如 何 改变 。 

3.8 证 明 使 用 比较 -分 裂 操 作 的 基于 块 的 双 调 排序 算法 是 正确 的 。 

9.9 考虑 有 n 个 进程 的 环形 连接 并 行 计算 机 。 证 明 如 何 将 双 调 排序 网 络 的 输入 线 映 射 到 环 
中 , 使 得 通信 成 本 最 低 。 分 析 你 的 映射 的 性 能 。 再 考虑 只 能 使 用 p 个 进程 的 情况 。 分 析 在 这 种 
情况 下 你 用 的 并 行 形式 的 性 能 。 要 保持 一 种 成 本 最 优 的 并 行 形式 ， 最 大 可 用 进程 数目 是 多 
少 ? 你 用 的 方案 的 等 效率 函数 是 什么 ? 

9.10 说 明基 于 块 的 奇偶 转换 排序 产生 的 算法 是 正确 的 。 

提示 : 这 个 问题 类 似 于 习题 9.8 . 

9.11 说明 如 何在 p 个 进程 的 格 网 连接 计算 机 上 应 用 希 尔 排 序 算法 的 思想 (9.3.2 节 )。 不 
要 求 算法 与 超 立 方 体形 式 完 全 相同 。 

9.12 ”说 明 如 何在 p 个 进程 的 超 立方 体 上 并 行 化 串 行 希 尔 排序 算法 。 注 意 9.3.2 节 介绍 的 希 
尔 排 序 算 法 并 不 是 串 行 算法 的 精确 并 行 化 。 

9.13 ”考虑 9.3.2 节 介绍 的 希 尔 排序 算法 。 它 的 性 能 取决 于 ! 的 值 ，/! 是 在 执行 算法 第 二 阶段 
时 奇数 和 偶数 阶段 的 数目 。 描 述 需 要 一 种 1 = B(p) 个 阶段 的 最 坏 情 况 的 初始 主要 分 布 。 这 种 最 
坏 情 况 出 现 的 概率 是 多 少 ? 

9.14 在 9.4.1 节 中 讨论 了 用 于 CREW PRAM 的 快速 排序 并 行 形式 ， 它 基于 分 配 每 个 子 问 
圳 到 单独 的 进程 。 这 种 形式 使 用 "个 进程 对 "个 元 素 进行 排序 。 请 根据 这 种 方法 推导 出 使 用 p 个 
进程 的 并 行 形式 ， 其 中 < n。 导 出 并 行 运行 时 间 、 效 率 以 及 等 效率 函数 的 表达 式 。 你 的 并 行 
形式 可 用 的 且 能 保持 成 本 最 优 的 最 大 进程 数目 是 多 少 ? 

9.15 ”推导 过 历 由 算法 9-6 的 算法 构造 的 二 叉 搜 索 树 的 一 种 算法 ， 并 确定 每 个 元 素 在 排序 
后 的 数组 中 的 位 置 。 在 任意 的 CRCW PRAM 上 ,，, 你 的 算法 应 能 用 n 个 进程 在 时 间 B(log n) 内 
求解 问题 。.、 

9.16 考虑 快速 排序 算法 (9.4.2 节 ) 的 PRAM 形 式 。 计 算 由 算法 产生 的 二 又 树 的 平均 高 度 。 
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9.17 “考虑 下 面 的 并 行 快速 排序 算法 ， 尼 和 用 p 个 运程 超 闪 放生 计生 

是 待 排序 元 素 的 数目 ，p = 24 是 在 d 维 超 立 方 体 的 进程 数目 。 给 每 个 进程 分 配 mp 个 元 素 的 
央 ， 并 且 进 程 的 标号 决定 待 排序 序列 的 全 局 顺序 。 算 法 开始 时 选择 主 元 元 素 ， 再 将 这 个 主 元 
对 所 有 进程 广播 。 每 个 进程 在 接收 到 主 元 以 后 ， 把 本 地 元 素 分 成 两 个 块 ， 其 中 一 块 的 元 素 小 
于 主 元 ， 而 另 一 个 块 的 元 素 大 于 主 元 。 然 后 沿 着 第 d 个 通信 链 路 连接 的 进程 交换 相应 的 块 ， 使 
得 一 个 保持 其 元 素 小 于 主 元 ， 而 另 一 个 保持 元 素 大 于 主 元 。 特 别 是 ， 如 果 进 程 标号 的 二 进 制 
表示 的 第 d 位 (最 高 有 效 位 ) 是 0 的 话 ， 则 保留 小 于 主 元 的 元 素 ; 如 果 第 d 位 是 1 的 话 ， 则 保留 
大 于 主 元 的 元 素 。 这 个 步骤 以 后 ， 在 (d-1) 维 超 立 方 体 上 标号 的 第 d 位 为 0 的 进程 ， 其 元 素 将 小 
于 主 元 ， 而 在 其 他 (d-1) 维 超 立方 体 上 的 进程 ， 其 元 素 将 大 于 主 元 。 该 过 程 在 每 个 子 立 方 体 上 
递归 地 执行 ， 进 一 步 分 裂 子 序列 。 经 过 qd 次 这 样 的 分 裂 一 一 每 一 次 沿 着 一 个 维 一 一 则 序列 按照 
加 于 进程 的 全 局 顺序 排序 。 但 这 并 不 意味 着 每 个 进程 的 元 素 都 排 好 了 序 。 每 个 进程 还 需要 用 
串 行 快速 排序 对 其 本 地 元 素 进行 排序 。 算 法 9-9 给 出 这 个 快速 排序 的 超 立 方 体形 式 。 算 法 的 执 
行 过 程 如 图 9-21 所 示 。 

分 析 这 个 基于 超 立 方 体 的 并 行 快 速 排序 算法 的 复杂 度 。 推 导 并 行 运 行 时 间 、 加 速 比 以 及 
效率 的 表达 式 。 在 分 析 时 ， 假 定 初始 分 配 到 每 个 进程 的 元 素 是 均匀 分 布 的 。 

9.18 考虑 习题 9.17 描 述 的 在 d 维 超 立 方 体 上 的 快速 排序 并 行 形式 。 证 明 ， 经 过 d 次 分 裂 
后 一 一 每 一 次 分 裂 沿 着 一 个 通信 和 链 路 一 一 元 素 已 经 按照 进程 标号 定义 的 全 局 顺序 排 好 了 序 。 

9.19 考虑 习题 9.17 描 述 的 在 d 维 超 立 方 体 上 的 快速 排序 并 行 形式 。 将 此 算法 与 9.4.3 节 描 
述 的 消息 传递 快速 排序 算法 进行 比较 。 哪 个 算法 的 扩展 性 更 好 ?哪个 算法 对 差 的 主 元 元 素 选 
择 更 敏感 ? 

算法 9-9 在 d 维 超 立 方 体 上 快速 排序 的 并 行 形式 。B 是 分 配 到 


每 个 进程 的 有 n /p 个 元 素 的 子 序列 ， 
l. procedure HYPERCUBE QUICKSORT (8,n) 
2. begin 
3. id := process’s jabel; 
4. fori:=|1 toda do 
5. begin 
6. x := pivot; 
7. partition B into Bl and B2 such that BI < x < By; 
8. if ith bit is 0 then 
9. begin 
10. send B> to the process along the it communication link: 
11. C := Subsequence received along the it communication link; 
12. B:= BIUC; 
13. endif 
14. else 
15. send Bi to the process along the it communication link: 
16. C := subsequence received along the it communication link， 
17. B:= BUC.,; 
18. endelse 
19. endfor 
20. sort B using sequential gulcksort; 


21. ‘end HYPERCUBE_QUICKSORT ”i 
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a) 沿 第 “ 维 分 像 。 序 列 划分 
为 两 大 块 ， 其 中 一 块 小 于 
主 元 素 ，-- 块 大 于 七 元 素 


b) 沿 第 二 维 分 像 。 划 分 每 个 
子 块 为 遇 个 更 小 的 子 块 


c) 沿 第 一 维 分 型。 元 素 按照 由 
超 立 方 体 上 的 进程 标号 所 加 
的 全 局 顺序 排序 


图 9-21 d = 3 的 快速 排序 超 立 方 体形 式 的 执行 
注 : “次 分 多 如 图 a)、b) 和 c)， 每 次 沿 一 个 通信 链 路 。 第 二 列表 示 将 个 元 素 的 序列 划分 成 子 立 方 
体 。 子 立方 体 之 问 的 箭头 指示 较 大 元 素 的 移动 。 每 个 方 框 用 子 立 方 体 中 的 进程 标号 的 二 进 制 表 
示 标 记 。* 号 表示 包含 所 有 二 进 制 组 合 。 

9.20 ”在 d 维 超 立方 体 上 的 快速 排序 并 行 形式 (习题 9.17) 中 ， 另 一 种 主 元 选择 的 方法 是 
一 次 选择 所 有 2 -1 个 主 元 ， 如 下 所 示 : 

a) 每 个 进程 随机 挑选 有 ! 个 元 素 的 样本 ; 

b) 使 用 希 尔 排序 算法 (9.3.2 节 )， 所 有 进程 共同 对 有 1 x 2 个 项 的 样本 进行 排序 ; 

c) 从 列表 中 选择 24 -1 个 等 距 主 元 ; 

d) 广播 各 个 主 元 ， 使 得 所 有 进程 都 知道 主 元 。 

这 个 主 元 选择 方案 的 质量 是 如 何 依赖 于 ! 的 ?你 认为 /应 是 的 函数 吗 ” 在 什么 假设 下 ， 这 
个 方案 可 以 选择 出 好 的 主 元 ” 当 每 个 进程 的 元 素 分 布 不 同时 ， 这 个 方案 可 行 吗 ? 分 析 这 个 方 
案 的 复杂 度 。 

9.21 ” 超 立 方 体 上 并 行 快速 排序 主 元 选择 (第 9.17 节 ) 的 另 一 个 方案 如 下 。 在 沿 第 i 维 分 
裂 过 程 中 ， 有 27! 对 进程 交换 元 素 。 主 元 选择 分 两 个 步骤 : 第 一 步 ，2-! 对 进程 中 的 每 对 进程 
都 计算 其 合并 序列 的 中 值 ; 第 二 步 ， 计 算出 2 个 中 值 的 中 值 。 这 个 中 值 的 中 值 就 成 为 沿 第 ;个 
通信 链 路 分 裂 的 主 元 。 用 同样 的 方法 在 参与 的 子 立方 体 中 选择 后 来 的 主 元 。 在 什么 假设 下 ， 
这 个 方案 将 产生 好 的 主 元 选择 ? 它 比 正文 中 介绍 的 中 值 方案 好 吗 ” 试 分 析 这 种 主 元 选择 的 复 
杂 度 。 

提示 : 如 果 4 和 8 是 两 个 有 序 序 列 ， 每 个 有 7 个 元 素 ， 那 么 可 以 在 时 间 B(log n) 内 找到 
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A U B 的 中 值 。 

9.22 在 共享 地 址 空间 和 消息 传递 体系 结构 上 的 快速 排序 算法 的 并 行 形式 (9.4.3 节 ) 中 ， 
每 次 迭代 后 都 跟着 一 个 障碍 同步 。 此 障碍 同步 对 于 保证 算法 的 正确 性 是 必需 的 吗 ? 如 采 不 是 ， 
那么 没有 障碍 同步 时 其 性 能 会 如 何 改变 ? 

9.23 考虑 9.4.3 节 中 介绍 的 快速 排序 算法 的 消息 传递 形式 。 假 设 选择 了 正确 的 主 元 ， 请 
计算 算法 准确 的 (也 就 是 使 用 t;: ，t, 和 te ) 并 行 运行 时 间 和 效率 。 对 于 


Wj 
b) 二 ;0 
ch) t= =10, t= 100 


期 望 得 到 效率 为 0.50、0.75 和 0.95 这 几 种 情况 ， 计 算 你 所 用 形式 的 等 效率 函数 的 不 同 项 。 

这 种 形式 的 可 扩展 性 是 否 取决 于 期 望 得 到 的 效率 值 和 计算 机 的 体系 结构 特征 ? 

9.24 考虑 下 述 在 采用 格 网 连接 的 消息 传递 并 行 计 算 机 上 的 快速 排序 并 行 形式 。 假 定 每 个 
进程 分 配 一 个 元 素 。 递 归 划分 步骤 包括 选择 主 元 以 及 在 格 网 中 重 排 元 素 ， 使 得 那些 小 于 主 元 
的 元 素 放 在 格 网 的 一 部 分 ， 而 大 于 主 元 的 元 素 放 在 另 一 部 分 。 假 定格 网 中 的 进程 按 以 行 优先 
的 顺序 编号 。 在 快速 排序 算法 结束 时 ， 元 素 按 照 这 种 顺序 排 好 序 。 

考虑 图 9-22a 所 示 的 对 任意 子 序列 进行 划分 的 步骤 。 令 k 是 此 序列 的 长 度 ，Pn, Pm，… 
Pw 是 存放 序列 的 格 网 进程 。 划 分 包括 下 列 四 步 : 

1 ) 随机 选择 主 元 并 发 送 给 进程 P,。。 如 图 9-22b 所 示 ， 通 过 使 用 内 和 嵌 树 ， 进 程 Pv 将 此 主 元 

广播 到 所 有 的 k 个 进程 。 根 (P, ) 向 叶子 传送 主 元 。 在 下 面 的 步骤 中 也 使 用 到 内 嵌 树 。 





图 9-22 a) 在 执行 快速 排序 时 ， 存 放 在 某 一 点 部 分 待 排序 序列 的 
格 网 任 一 部 分 ; b) 嵌入 格 网 相同 部 分 的 二 又 树 


2) 信息 收集 到 每 个 进程 并 且 在 树 中 往 上 传递 。 特 别 ， 每 个 进程 计算 出 其 左 子 树 和 右 子 树 
中 小 于 和 大 于 主 元 的 元 素 的 数目 。 每 个 进程 知道 主 元 的 值 ， 因 此 可 以 决定 其 元 素 是 小 
于 还 是 大 于 主 元 。 每 个 进程 将 两 个 值 传播 到 其 父 进程 : 一 个 是 进程 子 树 中 小 于 主 元 的 
数目 ， 另 一 个 是 其 中 大 于 主 元 的 数目 。 由 于 嵌入 格 网 中 的 树 是 不 完全 的 ， 有 些 市 点 没 
有 左 子 树 或 右 子 树 。 在 此 步骤 结束 时 ， 进 程 己 知道 k 个 元 素 中 有 多 少 个 小 于 主 元 ， 有 
多 少 个 大 于 主 元 。 如 果 s 是 小 于 主 元 的 元 素 的 数目 ， 那 么 在 排序 后 的 序列 中 ， 主 元 的 
位 置 是 P,,,。 

3) 信息 在 树 中 往 下 传递 ， 使 得 每 个 元 素 移动 到 小 于 主 元 的 划分 或 大 于 主 元 的 划分 中 的 合 
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适 位 置 。 树 中 每 个 进程 都 从 父 进 程 接收 小 于 主 元 的 划分 和 大 于 主 元 的 划分 中 的 下 一 个 
空位 置 。 根 据 存放 在 每 个 进程 中 的 元 素 小 于 主 元 或 大 于 主 元 ， 每 个 进程 向 下 传播 合适 
的 信息 到 其 子 树 。 最 初 ， 小 于 主 元 的 元 素 的 位 置 是 P。， 大 于 主 元 的 元 素 的 位 置 是 
Ew so 

4) 进程 执行 置换 操作 ， 每 个 元 素 移动 到 小 于 主 元 的 划分 或 大 于 主 元 的 划分 中 的 合适 位 
置 。 
此 算法 如 图 9-23 所 示 。 


| 大 于 主 元 的 元 素 


人 i 和 





图 9-23 在 4 x 4 格 网 上 划分 有 13 个 元 素 的 序列 


注 : a) 格 网 进程 以 行 优先 方式 编号 ， b) 存放 在 每 个 进程 中 的 元 素 ( 带 阴影 的 元 素 是 主 元 ) ; c) 嵌入 一 部 分 
格 网 中 的 树 ; d) 执行 完 第 二 步 后 ， 进 程 第 一 列 中 小 于 或 大 于 主 元 的 元 素 的 数目 ; e) 在 第 三 步 ， 向 下 传播 
小 于 或 大 于 主 元 的 元 素 到 第 一 列 的 进程 ; f) 在 第 三 步 未 尾 ， 元 素 的 目的 地 ; g) 在 一 对 一 私有 通信 后 元 素 
的 位 置 
分 析 这 个 基于 格 网 的 并 行 快速 排序 算法 的 复杂 度 。 推 导出 并 行 运行 时 间 、 加 速 比 和 效率 
的 表达 式 。 进 行 分 析 时 假设 最 初 分 配 到 各 个 进程 的 元 素 是 均匀 分 布 的 。 
9.25 考虑 习题 9.24 介 绍 的 格 网 上 的 快速 排序 形式 。 请 给 出 一 种 使 用 p < "个 进程 的 缩小 的 
形式 。 分 析 它 的 并 行 运行 时 间 、 加 速 比 和 等 效率 函数 。 
9.26 考虑 9.6.1 节 介绍 的 枚 举 排序 算法 。 说 明 算法 如 何在 下 列 计算 机 上 实现 : 
a) CREW PRAM 
b) EREW PRAM 
c) 超 立 方 体 连 接 的 并 行 计算 机 
d) 格 网 连接 的 并 行 计 算 机 


分 析 你 的 算法 形式 的 性 能 。 另 外 ， 说 明 如 何 将 这 种 枚 举 排 序 扩展 到 超 立 方 体 上 对 使 用 p 个 


进程 的 n 个 元 素 进行 排序 。 

9.27 ”推导 9.5 市 介绍 的 桶 排序 并 行 形式 的 加 速 比 、 效 率 以 及 等 效率 函数 。 将 这 些 表达 式 
与 本 章 中 介绍 的 其 他 排序 算法 的 表达 式 进 行 比较 ， 哪 些 并 行 形式 比 桶 排序 的 性 能 好 ?哪些 性 
能 差 ? 
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9.28 证 明 : 9.5 节 讲述 的 分 裂 器 选择 方案 能 够 保证 m 个 桶 中 每 个 桶 的 元 素数 目 少 于 2n/m.。 

9.29 ”推导 9.5 节 介绍 的 样本 排序 并 行 形式 的 加 速 比 、 效 率 和 等 效率 图 数 。 分 别 在 下 列 条 
件 下 推导 这 些 度量 : 1) 每 个 进程 上 的 p 个 子 块 大 小 相等 ; 2) 每 个 进程 上 的 p 个 子 块 的 大 小 相 
差 log p 倍 。 

9.30 ”在 9.5 节 介绍 的 样本 排序 算法 中 ， 所 有 进程 发 送 p-1 个 元 素 到 进程 Po，Po 对 P(p-1T) 个 
元 素 进 行 排序 ， 并 发 送 分 裂 器 给 所 有 的 进程 。 修 改 此 算法 ， 使 得 进程 使 用 双 调 排序 对 p(p- 了 ) 
个 元 素 进 行 并 行 排序 。 你 如 何 选择 分 裂 器 ? 计算 你 的 算法 形式 的 并 行 运行 时 间 、 加 速 比 和 效 
率 。 

9.31 基数 排序 (9.6.2 节 ) 的 性 能 是 怎样 依赖 于 r 的 值 的 ? 计算 "的 值 ， 使 得 算法 的 运行 时 
间 最 少 。 

9.32 推广 9.6.2 节 介绍 的 基数 排序 算法 ， 使 其 用 在 p 个 进程 (p < n) 对 n 个 元 素 进 行 排序 。 推 


427| 有 寻 这 种 并 行 形式 的 加 速 比 、 效 率 和 等 效率 函数 的 表达 式 。 你 能 否 设计 出 更 好 的 排序 机 制 ? 





第 10 章 图 算 法 


在 计算 机 科学 中 ， 图 论 的 地 位 非常 重要 ， 因 为 它 为 许多 问题 提供 简单 而 系统 化 的 建 模 方 
法 。 许 多 问题 都 可 以 用 图 表示 ， 并 用 标准 的 图 算法 解决 。 本 章 讨论 一 些 重要 和 基本 的 图 算法 
的 并 行 形式 。 


10.1 定义 积 表示 


无 向 图 (undirected graph) G 是 一 对 (VY, E)， 其 中 V 是 有 限 个 称 为 顶点 的 点 集 ，E 是 有 限 
条 边 的 边 集 。 边 e E E 是 无 顺序 的 对 (u,v)， 这 里 u,v E V。 边 (4, v) 表示 顶点 4& 和 顶点 v 相 连 。 同 
样 ， 有 向 图 (directed graph) G 也 是 一 对 (V,E)，V 和 上 面 定义 的 顶点 集合 相同 ， 但 边 (u, v)E 
E 是 有 序 对 ; 即 表 示 有 一 个 从 u 到 v 的 连接 。 图 10-1 所 示 为 一 无 向 图 和 一 有 向 图 。 在 本 章 中 ,无 
向 图 和 有 向 图 都 称 为 图 ( graph )。 

虽然 无 向 图 和 有 向 图 的 某 些 术语 的 含义 可 能 稍 有 区 别 ， 但 两 者 的 许多 定义 是 相同 的 。 如 
果 图 是 无 向 图 ， 那 么 边 (x, y) 与 顶点 kx 和"v 关 联 。 然 而 ， 如 果 图 是 有 疝 图 ， 那 么 边 (@, v) 从 顶 扩 4 
射出 ， 并 射 入 到 顶点 v。 例 如 ， 在 图 10-1a 中 ， 边 e 关 联 顶 点 5 及 顶点 4， 但 是 在 图 10-1b 中 ， 边 f 
从 顶点 5 射出 并 射 人 到 顶点 2。 如 果 (u, v) 是 无 向 图 G = (V, BE) 中 的 边 ， 就 说 顶点 x 和 v 彼 此 邻接 ; 
如 果 是 有 疝 图 ， 就 说 顶点 v 邻 接 到 顶 后 4。 





a) b) 


图 10-1 a) 无 向 图 ; b) 有 向 图 


从 顶点 u 到 顶点 tv 的 路 径 是 顶点 序列 < Vo ,Vis V3, ,Vk ，>， 其 中 vo= V, Vi= WU, 且 对 i = 0,1, 
一 1 ，(Vi va EEE。 路 径 的 长 度 被 定义 为 路 径 中 边 的 数目 。 如 果 存 在 一 条 从 u 到 v 的 路 径 ， 
则 wu 到 v 是 可 达 的 (reachable)。 如 果 路 径 中 所 有 的 顶点 都 是 唯一 的 ， 则 称 路 径 为 简单 的 (simple)。 [429 
如 采 路 径 的 起 点 和 终点 相同 ， 即 w = w ， 则 路 径 构成 一 个 图 (cycle)。 一 个 图 没有 圈 称 为 无 图 的 
(acyclic) ， 如 果 所 有 的 中 间 顶 点 都 不 相同 ， 则 称 转 为 简单 的 。 例 如 ， 在 图 10-1a 中 ， 序 列 
< 3, 6, 5, 4 > 是 从 顶点 3 到 顶点 4 的 路 径 ， 在 图 10-1b 中 ， 存 在 一 个 有 向 简单 圈 < 1, 5, 6, 4, 1 >。 
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此 外 ， 在 图 10-1a 中 ， 序 列 < 1, 2, 5, 3, 6, 5, 4, 1 > 是 无 向 圈 ， 但 不 是 简单 圈 ， 因 为 它 包 含 环 < 9， 
3,6,5 >。 

如 有 无 向 图 中 的 每 一 对 顶点 通过 一 条 路 径 连接 ， 则 称 无 向 图 是 连通 的 。 对 于 图 G = (V, E)， 
如 果 存 在 一 个 图 G' = (V', E)， 且 V'CV,E'CE， 则 称 G' 为 G 的 子 图 。 如 果 和 集合 YCY ， 由 V 
导出 的 G 的 子 图 为 图 G' = (V', E')， 其 中 ，E' = {(u, v) € Elu, v € V' }。 如 果 图 中 的 每 一 对 顶点 
都 邻接 ， 则 称 图 为 完全 图 (complete graph)。 树 林 (forest) 是 无 圈 图 ， 而 树 (tree) 是 连通 
无 圈 图 . 注意 ， 如 果 图 G = (V, 可 是 树 ， 则 IEI = IVI-1。 

有 时 E 中 的 每 一 条 边 都 有 权 与 之 对 应 。 权 通常 是 实数 ， 表 示 穿 越 相应 的 边 所 需 的 成 本 或 收 
租 。 例 如 ， 在 电子 回路 中 ， 电 阻 器 可 以 用 边 来 表示 ， 边 的 权 表示 电阻 。 如 果 图 中 的 每 条 边 都 
有 权 与 之 对 应 ， 则 该 图 称 为 加 权 图 (weighted graph)， 用 G = (V, E, w) 表示 ， 其 中 V 和 E 的 定 
义 同 前 ， 而 w : 有 -~ 风 为 定义 在 E 上 的 实 值 函 数 。 图 的 权 定 义 为 边 的 权 之 和 。 路 径 的 权 是 路 径 
中 边 的 权 之 和 。 

在 计算 机 程序 中 ， 有 两 种 表示 图 的 标准 方法 。 第 一 种 方法 使 用 和 矩阵， 第 二 种 方法 使 用 链 
接 表 。 

考虑 含 " 个 顶点 的 图 G = (V, E)， 顶 点 编号 为 1, 2, 3, …, n。 图 的 邻接 算 降 是 一 个 n x n 的 数 
组 4 = (cv )， 定义 如 下 : 

a = | 1 如 果 (vi,vj)eE 
" 0 否则 


图 10-2 为 一 无 向 图 及 其 邻接 矩阵 表示 。 注 意 ， 无 向 图 的 邻接 盾 阵 是 对 称 的 。 为 方便 表示 
加 权 图 ， 可 修改 邻接 和 矩阵 表示 法 。 此 时 4 一 (aij) 定 义 如 下 : 
Ww(vi,vj) ”如 果 (vi,vj)) EE 
ai j= 40 如 打工 二 / 
CC 否则 
我 们 称 这 种 修改 过 的 邻接 矩阵 为 加 权 和 邻接 算 阵 (weighted adjacency matrix )。 存 储 含 n 个 
顶点 的 图 的 邻接 矩阵 所 需 的 空间 为 8@(n?)。 


01000 

© 人 1]0101 
A= |01001 

“lo 0001 

0 1 1 10 


图 10-2 无 向 图 及 其 邻接 矩阵 表示 


图 G = (V, EE) 的 邻接 表 (adjacency list) 由 表 的 数组 Adj [1 .. 1VI] 构 成 。 对 于 每 个 YE V， 如 
果 图 G 包 含 边 (v, w) E E， 则 Adj[v] 是 所 有 顶点 4 的 链表 。 换 句 话说 ，Adj[v] 是 所 有 与 v 邻 接 的 大 
点 的 列表 。 图 10-3 为 图 的 邻接 表 表 示 的 例子 。 如 果 对 邻接 表 作 修改 ， 在 顶点 ,的 邻接 表 中 存储 
每 条 边 (u,v) E E 的 权 ， 则 可 用 邻接 表 来 表示 加 权 图 。 存 储 这 种 邻接 表 所 需 的 空间 为 @(IE1)。 
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图 10-3 无 向 图 及 其 邻接 表 表 示 


图 的 性 质 决定 图 使 用 哪 种 表示 方法 。 如 果 | 且 远 小 于 OGVP)， 则 图 G = (V, 百 为 稀疏 图 ; 否 
则 为 稠密 图 。 邻 接 矩 阵 用 来 表示 稠密 图 很 用 效 ， 而 用 邻接 表 表示 稀 朴 图 则 较 有 效 。 注 意 ， 如 
果 要 遍历 图 中 所 有 的 边 ， 使 用 邻接 矩阵 表示 时 ， 由 于 要 访问 整个 数组 ， 捉 行 运 行 时 间 的 下 界 
为 Q(IV2 。 然 而 ， 如 果 使 用 邻接 表 表 示 ， 则 基于 同样 的 原因 ， 运 行 时 间 的 下 界 为 QIVI+IEI) 。 
因此 ， 如 果 图 是 稀疏 的 〈IBI 远 小 于 IV) ， 则 邻接 表 表 示 法 要 优 于 邻接 矩阵 表示 法 。 

本 章 余 下 的 部 分 提出 了 几 个 图 的 算法 。 前 4 节 提 出 的 是 稠密 图 的 算法 ， 最 后 一 节 讨论 稀 玖 
图 的 算法 。 我 们 假设 稠密 图 用 邻接 矩阵 表示 ， 稀 疏 图 用 邻接 表 表 示 。 在 全 章 中 ，n 都 表示 图 中 
的 顶点 数目 。 


10.2 最 小 生成 树 : Prim 算 法 


无 内 图 C 的 生成 树 (spanning tree) 是 图 G 的 子 图 ， 它 是 一 棵 包含 图 G 的 所 有 顶点 的 树 。 在 
加 权 图 中 ， 子 图 的 权 是 子 图 中 边 的 权 值 之 和 。 加 权 无 向 图 的 最 小 生成 树 (minimum spanning 
tree, MST) 是 权 值 最 小 的 生成 树 。 许 多 问题 需要 找 出 无 向 图 的 最 小 生成 树 。 例 如 ， 要 求 出 连 
接 网 络 中 一 批 计 算 机 所 需 电缆 的 最 小 长 度 ， 就 需要 找 出 包含 所 有 可 能 连接 的 无 向 图 的 最 小 生 
成 树 。 图 10-4 所 示 为 一 无 向 图 及 其 最 小 生成 树 。 : 





图 10-4 无 向 图 及 其 最 小 生成 树 


如 水 图 G 是 不 连通 的 ， 那 么 它 不 存在 生成 树 。 但 它 有 生成 树林 (spanning forest)。 为 了 更 
简单 地 描述 最 小 生成 树 算法 ， 我 们 假设 G 是 连通 的 。 如 果 G 不 连通 ， 则 可 以 找 出 它 的 连通 分 量 
(10.6 节 )， 并 对 每 个 连通 分 量 应 用 MST 算 法 。 同 样 ， 我 们 也 可 以 修改 MST 算 法 以 输出 最 小 生 
成 树林 。 
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证 生成 树 成 本 最 小 的 顶点 和 边 ， 扩 大 最 小 生成 树 。 算 法 一 直 进 行 到 所 有 的 顶点 都 被 选择 才 结 
束 。 

= (V, E) 为 待 求 最 小 生成 树 的 加 权 无 向 图 ，A = (av ) 为 加 权 邻 接 矩阵 。Prim 算 法 如 算 
法 10-1 所 示 。 算 法 中 用 集合 Vi 来 保存 最 小 生成 树 构造 过 程 中 的 顶点 ， 并 使 用 数组 d[1 .. n]， 对 
于 每 个 顶点 v E (V-Vr)，d[v] 中 保存 从 Vr 中 的 任何 顶点 到 顶点 v 的 边 中 最 小 的 权 值 。 最 初 ，Vi 
包含 一 任意 的 顶点 r， 它 成 为 最 小 生成 树 的 根 。 而 且 ，d[r] = 0， 对 于 所 有 的 ve (V-Vr)， 如 果 
边 (r,v) 存 在 ， 则 d[v] = w(r, v); 否则 d[v] = = 。 在 算法 的 每 次 迭代 中 ， 如 果 d[u] = min{d[v]lv E 
(V-V7)}， 一 个 新 的 顶点 u 就 加 入 到 Vr 中 。 这 个 顶点 加 入 后 ， 由 于 在 顶点 v 和 新 加 入 的 顶点 之 
间 可 能 存在 一 条 权 更 小 的 边 ， 对 于 v E (V-Vr )，d[v] 中 的 所 有 值 都 需要 更 新 。 当 V: = V 时 ， 算 
法 终止 。 图 10-5 表 示 该 算法 。Prim 算 法 终止 时 ， 最 小 生成 树 的 成 本 为 >》 wd[v] 。 很 容易 对 算 
法 10-1 进 行 修改 ， 使 其 能 存储 属于 最 小 生成 树 的 边 。 


算法 10-1 Prim 的 串 行 最 小 生成 树 算法 


1 procedure PRIM_MST(V, E, w, r) 

2 

3 = {7r}; 

4. dm] := 0; 

3 forallve (V — Vr)do 

6. if edge (7, v) exists set d[v] := w!(r, v); 
else set d[v] := 

8. while Vr 和 关 Y do 

>. begin 

10. find a vertex wu such that d[u| := min{dl[v]lv € (V ~ Vr)}; 
Ll Vr := Vr VU {u}; 

12.; for allve (V— Vr)do 

23 dl[v] := min{d[v], w(u, v)}; 

14. endwhile 


15. end PRIM_MST 


在 算法 10-1 中 ，while 循 环 的 循环 体 (第 10 行 到 第 13 行 ) 执行 -1 次 。 计 算 min{d[v]jlv E 
(V-Vr)}( 第 10 行 ) 和 for 循 环 (第 12 行 和 第 13 行 ) 都 要 执行 O(n) 步 。 因 此 ，Prim 算 法 的 算法 复杂 
度 为 6(n?)。 
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图 10-5 Prim 的 最 小 生成 树 算法 。MST 的 根 为 顶点 s。 在 每 次 迄 代 中 ， 选 择 的 Vj; 中 的 
顶点 和 边 用 粗 线 表示 。 数 组 d [v ] 表 示 更 新 后 V -Vz 中 顶点 的 值 
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d) 最 后 的 最 小 生成 树 
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图 10-5 ”( 续 ) 


算法 的 并 行 形式 

Prim 算 法 通过 迭代 实现 。 每 一 次 迭代 向 最 小 生成 树 中 添加 一 个 新 的 顶点 。 由 于 每 次 加 入 [033 
新 的 顶点 u 到 Vr 时 ， 顶 点 v 的 d[v] 值 可 能 改变 ， 很 难 选 择 多 于 一 个 顶点 加 入 到 最 小 生成 树 中 。 例 ”434 
如 ， 在 图 10-5 中 ， 选 择 顶 点 v 后 ， 如 果 再 选择 顶点 4 和 顶点 <， 就 不 能 找到 最 小 生成 树 。 这 是 因 
为 ， 在 选择 顶点 4 后 ，d[c] 的 值 便 从 5 更 新 为 2。 因 此 ， 很 难以 并 行 方式 执行 while 循 环 中 不 同 的 
迭代 。 然 而 ， 每 次 迭代 都 可 用 下 面 的 方法 并 行 化 。 | 

令 p 为 进程 的 数目 , "为 图 中 顶点 的 数目 。 用 1 维 块 映射 将 集合 V 划 分 成 p 个 子 集合 (3.4.1 节 )。 
每 个 子 集 合 有 n/p 个 连续 的 顶点 ， 与 每 个 子 集合 相关 的 任务 被 分 配给 不 同 的 进程 。 令 Vi 是 分 配 
给 进程 P; 的 顶点 的 子 集 ， 其 中 ，i = 0, 1, … , p-1。 每 个 进程 P; 存储 数组 d 中 与 V; 对 应 的 部 分 
( 即 在 vE 多 时 ， 进 程 P 存储 4[v])。 图 10-6a 表 示 划 分 。 在 while 循 环 的 每 次 迭代 中 ， 每 个 进程 
计算 di[u] = min{di[vjlv E (V-Vr) mn V;}。 对 所 有 的 di [uj 进行 多 对 一 归 约 操作 (4.1 节 ) 就 得 到 
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全 局 最 小 值 ， 并 存储 在 进程 Po 中 。 此 时 进程 Po 中 保存 新 的 顶点 4， 它 将 被 插入 到 Vr 中 。 进 程 P 
使 用 一 对 多 广播 操作 将 wu 广播 给 所 有 的 进程 。 人 负责 顶点 4 的 进程 Pi; 将 x 标 记 为 属于 集合 Vr 。 最 后 ， 
每 个 进程 对 自己 的 本 地 顶点 更 新 d[y] 的 值 。 





处 理 器 
图 10-6 在 2 个 进程 中 划分 距离 数组 dl 以 及 邻接 矩阵 4 


当 一 个 新 的 顶点 u 插 入 到 Vr 后 ， 对 于 v E(V-Vr)，d[y] 的 值 必 须 更 新 。 负 责 顶 点 v 的 进程 必 
须知 道 边 (u, v) 的 权 。 因 此 ， 每 个 进程 P; 必须 存储 加 权 邻 接 和 矩阵 中 与 分 配给 它 的 顶点 集合 对 
应 的 列 。 这 对 应 于 和 矩阵 的 一 维 块 映射 (3.434 节 )。 在 每 个 进程 中 ， 用 来 存储 邻接 矩阵 中 所 需 部 
分 的 空间 为 B(z2p)。 图 10-6b 表 示 对 加 权 邻 接 和 矩阵 的 划分 。 

在 每 次 达 代 过 程 中 ， 每 个 进程 最 小 化 以 及 更 新 d[v] 所 需 的 计算 为 8(n/p)。 每 次 迭代 的 通信 
操作 取决 于 多 对 一 归 约 及 一 对 多 广播 。 对 于 有 p 个 进程 的 消息 传递 并 行 计算 机 ， 一 个 字 的 一 对 
多 广播 操作 所 需 时 间 为 (t, + t, )log p (4.1 节 )。 在 每 个 进程 中 找 出 一 个 字 的 全 局 最 小 值 所 需 时 
间 和 它 相 同 (4.1 节 )。 因 此 ， 每 次 迭代 的 总 通信 成 本 为 B(log p)。 这 个 形式 的 并 行 运行 时 间 可 
用 下 式 给 出 : 

计算 


2 通信 
Tp=©O (3) + O(n log p) 


由 于 捉 行 运行 时 间 为 W = B(n?)， 并 行 化 得 到 的 加 速 比 和 效率 如 下 : 


O(n2) 
(n/p) + O(n log p) 
] 
1 十 @(Plog p)/n) (10-1 ) 


从 公式 (10-1) 可 以 看 出 ， 对 于 成 本 最 优 的 并 行 形式 ，(p log p)/n = O(1)。 因 此 ，Prim 算 法 
的 这 个 并 行 形式 可 以 只 使 用 p = O(n/log n) 个 进程 。 而 且 ， 从 公式 (10-1) 还 可 以 看 出 ， 由 通信 
舍 成 的 等 效率 函数 为 8@(p"logp)， 由 于 在 这 种 并 行 形式 中 ，n 增 长 必须 至 少 和 p 一 样 快 ， 由 并 发 
带 来 的 等 效率 函数 为 8(p”))。 所 以 ， 这 种 形式 的 整体 等 效率 为 @(p?log?p)。 


S$ = 
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10.3 单 源 最 短路 径 : Dijkstra 算 法 


对 于 加 权 图 G = (V, 开 ,mw)， 单 源 最 短路 径 (single-source shortest path) 问题 是 找 出 从 一 
个 顶点 v EV 到 V 中 所 有 其 他 顶点 的 最 短路 径 。 从 4 到 v 的 最 短路 径 是 权 最 小 的 路 径 。 根 据 应 
用 ， 边 权 可 以 表示 时 间 、 上 成本、 损失、 损耗 或 者 其 他 任何 裕一 条 路 径 的 相 加 累积 量 ， 而 且 
是 最 小 值 。 下 面 将 首先 讲述 Dijkstra 算 法 ， 它 在 非 负 权 的 无 向 图 和 有 向 图 上 解决 单 源 最 短路 
径 回 题 。 

Dijkstra 算 法 从 某 一 顶点 * 找 出 最 短路 径 ， 这 与 Prim 的 最 小 生成 树 算法 类 似 。 与 Prim 算 法 一 
样 ，Dijkstra 算 法 渐 增 地 找 出 从 顶点 ?到 G 中 其 他 顶点 的 最 短路 。 它 也 是 贪 禁 算 法 ; 即 它 总 是 选 
择 一 条 看 上 去 与 顶点 最 近 的 边 。 算 法 10-2 为 Dijkstra 算 法 。 将 此 算法 与 Prim 的 最 小 生成 树 算法 
相 比 ， 可 以 发 现 两 者 几乎 相同 。 主 要 区 别 是 ， 对 于 每 个 顶点 u E(V~-Vr)，Dijkstra 算 法 存储 ![u]， 
它 是 从 顶点 s 经 Vz 中 的 顶点 到 达 顶 点 u 的 最 小 成 本 ; 而 Prim 算 法 存储 d[u]， 它 是 连接 Vy 中 的 一 
个 顶点 与 4 的 最 小 成 本 边 的 成 本 。Dijkstra 算 法 的 运行 时 间 为 6(n?)。 


算法 10-2 Dijkstra 的 串 行 单 源 最 短路 径 算法 





l. procedure DUHKSTRA SINGLE.SOURCE SP(V, E, w, s) 
2. 

3. VT := {s}; 

4. for allve (V — Vr)do 

4. if (s, v) exists set I[v] := wt(s, v); 

6. else set [{[v] := ce; 

7. while Vr 类 Y do 

8. begin 

9. find a vertex u such that I{u] := minflfujly € (Y — V7)}; 
10. Vr := Vr U {uj}; 

11. for allv € (V — Vr) do 

12. Iv] := min{l{v), lu) + wlu, v)); 

13. endwhile 


1l4. end DUKSTRA_SINGLE_SOURCE_SP 





算法 的 并 行 形式 

Dijkstra 单 源 最 短路 径 算法 的 并 行 形式 与 Prim 最 小 生成 树 算法 的 并 行 形式 非常 相似 (10.2 
市 )。 用 1 维 块 映射 划分 加 权 邻 接 矩 阵 (3.4.1 节 )。 加 权 邻 接 矩 阵 中 mp 个 连续 的 列 分 配给 p 个 进 
程 中 的 每 个 进程 ， 进 程 计 算数 组 ! 中 mp 个 值 。 在 每 次 迁 代 中 ， 所 有 进程 进行 的 计算 及 通信 操作 
与 Prim 算 法 的 并 行 形式 类 似 。 因 此 ，Dijkstra 单 源 最 短路 径 算法 的 并 行 性 能 和 可 扩展 性 与 Prim 
的 最 小 生成 树 算 法 相同 。 


10.4 全 部 顶点 对 间 的 最 短路 径 


除了 找到 从 某 一 个 顶点 到 其 他 每 个 顶点 的 最 短路 径 外 ， 有 时 也 需要 找 出 全 部 顶点 对 间 的 
最 短路 径 。 在 形式 上 ， 对 于 加 权 图 G(V, E, w)， 全 部 顶点 对 间 的 最 短路 径 (all-pairs shortest 
path) 问题 就 是 找 出 全 部 顶点 对 wm , v; EV (i 站 间 的 最 短路 径 。 对 于 有 n 个 顶点 的 图 ， 全 部 顶点 
对 间 的 最 短路 径 算 法 的 输出 为 一 n x n 知 阵 D 二 (di )， 其 中 必 ， 是 从 顶点 v; 到 顶点 v; 的 最 短路 径 的 
成 本 。 
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下 面 讲述 两 种 求解 全 部 顶点 对 间 的 最 短路 径 的 算法 。 第 一 种 算法 使 用 Dijkstra 的 单产 最 短 
路 径 算法 ， 第 二 种 算法 使 用 Floyd 算 法 。Dijkstra 算 法 要 求 图 的 边 权 非 负 (习题 10.4)， 而 Floyd 
算法 使 用 有 人 负 权 边 的 图 ， 只 要 它们 不 包含 负 权 的 图。 


10.4.1 Dijkstra 算 法 


在 10.3 节 我 们 讲述 了 在 图 中 查找 从 顶点 v 到 其 他 所 有 顶点 最 短路 径 的 Dijkstra 算 法 。 这 个 算 
法 也 可 用 来 解决 全 部 顶点 对 间 的 最 短路 径 问 题 ， 只 需 让 每 个 进程 对 每 个 顶点 v 执 行 单 源 算 法 。 
我 们 将 这 种 算法 称 为 Dijkstra 全 部 顶点 对 间 的 最 短路 径 算法 。 由 于 单 源 最 短路 径 的 Dijkstra 算 法 
的 复杂 度 为 9(m?)， 全 部 顶点 对 间 的 最 短路 径 算法 的 复杂 度 为 86(n3)。 

算法 的 并 行 形式 

Dijkstra 的 全 部 顶点 对 间 的 最 短路 径 算法 可 用 两 种 不 同 的 方法 并 行 化 。 一 种 方法 是 将 顶点 
在 不 同 的 进程 间 划 分 ， 让 每 个 进程 计算 分 配给 它 的 所 有 顶点 间 的 单 源 最 短路 径 。 我 们 称 这 种 
方法 为 源 划 分 形式 (source-partitioned formulation ) 。 另 一 种 方法 分 配 每 一 个 顶点 给 一 组 进程 ， 
并 用 单产 算法 的 并 行 形 式 (10.3 节 ) 求解 每 组 进程 上 的 问题 。 我 们 称 这 种 方法 为 源 并 行 形式 
(source-parallel formulation )。 下 面 将 讨论 和 分 析 这 两 种 方法 。 

源 划分 形式 。” Dijkstra 算法 的 源 划 分 并 行 形式 使 用 n 个 进程 。 通 过 执行 Dijkstra 的 品行 单 源 
最 短路 径 算 法 ， 每 个 进程 Pi; 找 出 从 顶点 vi; 到 所 有 其 他 顶点 间 的 最 短路 径 。 这 种 形式 不 需要 进程 
旧 的 通信 (假设 邻接 矩阵 在 所 有 进程 处 被 复制 )。 因 此 ， 此 形式 的 并 行 运行 时 间 由 下 式 给 出 : 


Tp 一 @(n’) 


由 于 串 行 运行 时 间 为 W = B(m)， 加 速 比 和 效率 如 下 : 


O(n;) 
O(n2) 
@(D) (10-2 ) 





E 


由 于 没有 通信 开销 ， 看 上 去 这 是 极 佳 的 并 行 形式 。 然而， 事实 并 非 如 此 。 算 法 至 多 可 以 
用 n 个 进程 。 因 此 ， 由 并 发 带 来 的 等 效率 函数 为 8(m)， 这 是 算法 的 整体 等 效率 函数 。 如 果 可 
用 于 解决 问题 的 进程 数目 较 少 ( 即 ” = B(p))， 那 么 算法 的 性 能 很 好 。 但 是 ， 如 果 进 程 的 数目 
大 于 n， 由 于 该 算法 的 可 扩展 性 较 差 ， 其 他 算法 的 性 能 最 终 将 胜 过 此 算法 。 

源 并 行 形式 源 划 分 并 行 形式 的 主要 问题 是 ， 它 只 能 让 "个 进程 保持 忙碌 进行 有 益 的 工作 。 
如 果 Dijkstra 的 单 源 最 短路 径 算法 的 并 行 形式 (10.3 节 ) 用 于 对 每 个 顶点 求解 问题 ， 则 性 能 可 
能 提高 。 除 了 单 源 算法 运行 于 不 相连 的 进程 子 集 上 以 外 ， 源 并 行 形式 与 源 划 分 形式 是 相似 的 。 

特别 地 ， 源 并 行 形式 把 p 个 进程 划分 成 a 组 ， 每 组 有 p/n 个 进程 (此 形式 只 有 当 p > n 时 才 有 
意义 )。n 个 单 源 最 短路 径 问 题 的 每 一 个 都 由 n 个 组 中 的 一 个 求解 。 也 就 是 说 ， 首 先 通过 分 配 每 
个 顶点 给 一 组 独立 的 进程 对 全 部 顶点 对 间 的 最 短路 径 问 题 并 行 化 ， 然 后 再 用 p/n 个 进程 组 对 单 
源 算法 并 行 化 对 问题 求解 。 使 用 这 种 形式 ， 得 到 有 效 利用 的 进程 总 数 为 O(n?)。 

可 用 10.3 节 中 的 分 析 推 导出 Dijkstra 全 部 顶点 对 间 的 最 短路 径 算法 并 行 形式 的 性 能 。 假 设 
有 一 个 含 p 个 进程 的 消息 传递 计算 机 ，p 是 n 的 整数 倍 。p 个 进程 被 划分 成 大 小 为 n/p 的 组 。 如 果 
单 源 算法 在 每 p/n 个 进程 组 中 执行 ， 则 并 行 运行 时 间 为 
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计算 
; 通信 
n re 
Tp = 人) + (nlog p) / (10-3) 


往 意 公 式 (10-3) 与 公式 (10-2) 之 间 的 相似 性 。 这 些 相似 性 并 不 奇怪 ， 因 为 每 组 p/n 个 进程 构 
成 不 同 的 组 ， 并 独立 地 进行 计算 。 所 以 ， 解 决 单 源 问 题 的 每 组 p/n 个 进程 所 需 的 时 间 决 定 整体 
运行 时 间 。 由 于 串 行 运行 时 间 为 W = 6B(m;)， 加 速 比 和 效率 如 下 : 

O(n’) 
O(n3/p) + O(n log p) 
/ 1 
1 十 9((plog p)/n2) (10-4) 


9 一 


从 公式 (10-4) 可 以 看 出 ， 对 于 成 本 最 优 的 并 行 形式 ，@ log p)/m? = O(D)。 因 此 ， 这 种 形式 
最 多 可 有 效 使 用 O(n?/log nn) 个 进程 。 公 式 (10-4) 还 表明 ， 由 通信 和 带 来 的 等 效率 函数 为 
B((p log p)“))， 由 并 发 带 来 的 等 效率 函数 为 8(p'5)。 因 此 ， 整 体 等 效率 函数 为 @((p log p)'5))。 

比较 Dijkstra 全 部 顶点 对 间 的 最 短路 径 算法 的 两 种 并 行 形式 可 以 发 现 ， 源 划分 形式 不 进行 
通信 ， 只 能 使 用 不 超过 a 个 进程 ， 求 解 问 题 所 需 的 时 间 为 @(n”)。 与 之 相反 ， 源 并 行 形式 可 使 
用 最 多 n*/log ?个 进程 ， 有 某 些 通信 开销 ， 当 使 用 zz/log n 个 进程 时 ， 求解 问题 所 需 的 时 间 为 
B(n log n)。 因 此 ， 源 并 行 形式 比 源 划 分 形式 利用 更 多 的 并 行 性 。 


10.4.2 ”Floyd 算 法 


解决 全 部 顶点 对 间 的 最 短路 径 的 Floyd 算 法 基于 下 面 的 考虑 。 令 G = (V, E, w) 为 加 权 图 ，V 
= {V1, V2, ..., vn } 是 图 G 的 顶点 。 考虑 k 个 顶点 的 子 集 {vj, v， Vy, 其 中 k&<n。 对 于 任 一 对 顶点 
vi, Vj 忆 V， 考 虑 从 vi 到 vj 的 所 有 路 径 ， 其 中 间 顶 点 属于 集合 {vi, v2, .… vi}。 令 pp 为 这 些 路 径 
中 权 最 小 的 路 径 ， 再 令 di 为 pi 的 权 。 如 果 顶 点 内 不 是 从 ~ 到 wv 的 最 短路 径 ， 则 p% 与 pm 
相同 。 但 是 ， 如 果 vi 在 pr 中 ， 则 可 将 pz 分 成 两 条 路 径 一 一 一 条 从 到 w ， 另 一 条 从 vi 到 v,，。 
这 两 条 路 径 都 使 用 集合 {v1, vw, …, vi 1} 中 的 顶点 。 因 此 ， db = dk + dW? 。 以 上 的 结论 可 用 
下 面 的 递归 公式 表示 : 





人 _ wt{vi, vj) ,大 一 0 
d. - 
ij min [a ), at D+ at "| ,x >1 (10-5) 


从 vi 到 vj 的 最 短路 径 的 长 度 由 di 给 出 。 通 常 解 为 矩阵 D(n) = (de )。 

Floyd 算 法 按 k 值 递增 的 顺序 自 底 向 上 求 公式 (10-5) 的 解 。 算 法 10-3 为 Floyd 的 全 部 顶点 对 算 
法 。Floyd 算 法 的 运行 时 间 由 第 4 至 7 行 的 三 重 幅 套 for 循 环 决定 。 每 次 执行 第 7 行 所 需 时 间 为 
9(1D); 因此 , 算法 的 复杂 度 为 @(m)。 算 法 10-3 似 乎 隐 含 必须 存储 个 大 小 为 n x n 的 和 矩阵. 但是， 
计算 矩阵 DW 时 ， 只 需要 矩阵 D4 了。 因此 ， 最 多 只 需 存储 两 个 n x n 的 矩阵 。 所 以 ， 整 体 空间 复 
杂 度 为 8Ur*)。 而 且 ， 即 使 只 使 用 D 的 一 个 副本 ， 该 算法 也 能 正确 执行 (习题 10.6)。 
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算法 10-3 ”Floyd 的 全 部 项 点 对 间 的 最 短路 径 算 法 





l. procedure FLOYD_ALL._PAIRS_SP(A) 
2. i 
3. DO) 一 A; 
4. for := Itondo 
4. fori:= 1 ton do 
6. for j :=1tondo 
(KX) 。 (Kk—1) (Kk—l) (Kk—1), 
7. da := min (dr, dl +d ): 
8. end FLOYD_ALL PAIRS SP 
注 : 程序 用 邻接 矩阵 4 计算 图 G = (V, E) 的 全 部 顶点 对 间 的 最 短路 径 。 
算法 的 并 行 形式 


Fioyd 算 靶 的 一 般 并 行 形式 是 ， 对 于 每 一 个 上 值 ， 把 计算 矩阵 De 的 任务 分 配给 一 组 进程 。 
令 p 为 可 用 的 进程 数目 。 乱 阵 Do 被 划分 成 p 部 分 ， 每 部 分 分 配给 一 个 进程 。 每 个 进程 计算 它 自 
己 部 分 的 D4 值 。 为 了 做 到 这 一 点 ， 进 程 必 须 访问 矩阵 De4-2 的 第 上 行 和 k 列 的 相应 部 分 。 下 面 讨 
论 一 种 划分 矩阵 Dw 的 技巧 。 另 一 种 技巧 在 习题 10.8 中 考虑 。 

2 维 块 映射 可 用 2 维 块 映射 划分 矩阵 D% (3.4.1 节 )}。 特 别 ， 和 矩阵 D% 分 为 大 小 为 (n/p) 
x (n/pP) 的 p 个 块 ， 每 块 分 配给 p 个 进程 之 一 。 把 p 个 进程 想象 成 排列 在 大 小 为 Vp x Vp 的 逻 
辑 网 格 中 是 有 帮助 的 。 注意 这 仅仅 是 概念 上 的 排列 ， 并 不 一 定 反映 真正 的 互连网 络 的 连接 方 
式 。 我 们 将 第 i 行 第 j 列 上 的 进程 称 为 P;; 。D% 的 一 个 子 块 分 配给 进程 P;;, ， 子 块 的 左上 角 
为 (i -Dn/yp+1,(j-Dn/Vp +1)， 右 下 角 为 (in/ Vp,jn/Vp)。 在 每 次 迁 代 中 ， 每 个 进程 更 新 
知 阵 中 自己 的 部 分 。 图 10-7a 表 示 2 维 块 映 射 技巧 。 





a) b) 
图 10-7 a) 用 2 维 块 映 射 将 矩阵 Dw 分 成 yp xVp 个 子 块 ; b) Do 的 子 块 分 配给 进程 P， 


在 算法 的 第 k 次 和 迭代 过 程 中 ， 每 个 进程 Pv 都 需要 矩阵 Po 中 第 k 行 和 第 k 列 中 的 某 些 部 分 。 

例如 ， 计 算 dn 需要 得 到 dt 和 dl 。 如 图 10-8 所 示 ， du-0 驻 留 在 与 P, 同 一 行 的 进程 中 ， 而 

dv， 保留 在 与 Pv 同 一 列 的 进程 中 。 这 些 值 的 传输 方式 如 下 : 在 算法 的 第 k 次 近代 过 程 ， Vp 个 

进程 中 包含 第 k 行 一 部 分 的 每 个 进程 都 将 这 一 部 分 发 送 给 同一 列 的 Vp -1 个 进程 。 同样 ，Vp 个 
进程 中 包含 第 k 列 一 部 分 的 每 个 进程 都 将 这 一 部 分 发 送 给 同一 行 的 Vp -1 个 进程 。 





图 10-8 a) 使 用 2 维 块 映射 的 通信 模式 。 计 算 dv 时 ， 信 息 必 须 从 同一 行 和 同一 9 
其 他 两 个 进程 发 送 到 高 亮 的 进程 ; b) 包含 第 k 行 和 k 列 的 
VP 个 进程 的 行 和 列 沿 进程 的 列 和 行 发 送信 息 


算法 10-4 显 示 使 用 2 维 块 映射 的 Floyd 算 法 的 并 行 形式 。 我 们 在 含 z 个 进程 的 消息 传递 计算 
机 上 分 析 这 个 算法 的 性 能 ， 计 算 机 的 交叉 对 分 带宽 为 6(p)。 在 算法 的 每 次 迭代 中 ， 进 程 的 第 k 
行 和 第 k 列 沿 Vp 个 进程 的 一 行 或 一 列 进行 一 对 多 广播 操作 。 每 一 个 这 样 的 进程 都 有 第 k 行 或 第 
k 列 的 n/ Vp 个 元 素 ， 所 以 发 送 的 元 素数 目 为 以 JP 。 广 播 需要 的 时 间 为 @((n log p)/ Vp )。 第 7 
行 的 同步 操作 需要 的 时 间 为 @(log p)。 由 于 矩阵 D” 的 mp 个 元 素 分 配给 每 个 进程 ， 计 算 相 应 的 
DW' 值 的 时 间 为 @(n”p)。 因 此 ， 使 用 2 维 块 映射 的 Floyd 算 法 的 并 行 运行 时 间 为 


计算 通信 


一 一 一 一 一 一 一 一 一 -一 
Tp= © 人 + (号 
p VP 
由 于 串 行 运行 时 间 为 歼 = @(m)， 加 速 比 和 效率 如 下 : 
Q(n’) 


O(n3/p) + O((n? log p)/VD) 
1 


1 + ©((VP log p)/n) (10-6) 


从 公式 (10-6) 中 可 以 看 出 ， 对 于 成 本 最 优 的 并 行 形式 ，( Jp log p)/n = 0(1); 因此 ，2 维 块 
映射 可 以 有 效 地 使 用 最 多 OGz2ylog2z) 个 进程 。 用 公式 (10-6) 推 导出 由 通信 带 来 的 等 效率 函数 为 
9(p'…1og:p)， 由 并 发 带 来 的 等 效率 函数 为 96(p15)。 因 此 ， 整体 等 效率 函数 为 @(p'“log， p)。 


算法 10-4 使 用 2 维 块 映射 的 Floyd 算 法 并 行 形式 


$ ”一 


bb. 二 


l. procedure FLOYD_2DBLOCK(DO) 

2. ”begin 

3 fork:=1ton do 

4. begin 

5 each process P; ; that has a segment of the kt row of DK-)). 


broadcasts it to the 已 ,) processes; 
6. each process P; ; that has a segment of the kt column of D(*—)); 
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broadcasts it to the P;: » processes,; 
each process waits to receive the needed segments; 
each process P:,; computes its part of the DK) matrix; 
end 
0. end FLOYD_2DBLOCK 


Cm 


Hk 


注 : P. ,表示 第 j 列 的 所 有 进程 ，Pi.; 表示 第 ; 行 的 所 有 进程 。 人 矩阵 D0 是 邻接 矩阵 。 


加 速 方法 ”在 Floyd 算 法 的 2 维 块 映射 形式 中 ， 计 算 和 矩阵 D% 的 元 素 前 ， 一 个 同步 步骤 保证 
所 有 的 进程 得 到 矩阵 Dn" 中 的 对 应 部 分 (算法 10-4 第 7 行 )。 换 旬 话 说 ， 只 有 当 第 (kD) 次 迭代 完 
成 后 且 和 矩阵 D* 的 相应 部 分 已 传送 给 所 有 的 进程 ， 第 k 次 和 迭代 才能 开始 。 消 除 同 步 步 又 不 会 影 
响 算 法 的 正确 性 。 为 了 实现 这 一 点 ， 进 程 在 完成 了 第 (k- 1) 次 选 代 并 得 到 和 撼 阵 D4-5 的 相应 部 分 
后 开始 第 k 次 迭代 。 这 种 形式 称 为 流水 线 2 维 块 映射 (pipelined 2-D block mapping)。 在 8.3 节 
用 同样 的 技巧 来 改善 高 斯 消 元 法 的 性 能 。 

考虑 一 个 按 2 维 拓扑 结 构 排 列 的 p 个 进程 的 系统 。 假 设 进程 Pi, 在 完成 了 第 (k-1) 次 迭代 并 
得 到 了 矩阵 Dn 的 相应 部 分 后 开始 第 k 次 从 代 。 当 进程 P; 在 得 到 第 k 行 的 元 素 并 完成 第 (kK~1) 次 
送 代 后 ， 把 本 地 存储 的 矩阵 D“ "的 相应 部 分 发 送 给 进程 Pij-, 和 Pi, ,!。 这 样 做 的 原因 是 ， 和 矩阵 
D0 的 那 一 部 分 被 用 于 计算 矩阵 Dw。 同样 ， 当 进程 Pj 在 得 到 第 k 列 的 元 素 并 完成 第 (k-1) 次 
送 代 后 ， 把 本 地 存储 的 和 矩阵 D4% 的 相应 部 分 发 送 给 进程 P-v 和 Pi ,1 。 当 进程 Pi 从 治 逻 辑 格 网 
同一 行 的 进程 中 接收 矩阵 D% 的 元 素 时 ， 将 元 素 存储 在 本 地 ， 并 把 它们 转发 给 与 接收 方向 相反 
的 进程 。 在 列 上 也 使 用 这 种 通信 协议 。 当 到 达 格 网 结构 的 边界 时 ， 个 再 转发 秆 阵 D" 的 元 素 ， 

[44 引 ”图 10-9 说 明 一 行 (或 列 ) 的 进程 的 通信 及 终止 协议 。 


时 间 



















i+4 


+5 


4 


处 理 器 
图 10-9 使 用 流水 线 2 维 映射 的 Floyd 算 法 并 行 形式 的 通信 协议 
注 : 假设 进程 4 在 时 刻 t 刚 计算 出 矩阵 D45 的 第 k 列 的 一 部 分 。 它 将 此 部 分 发 送 给 进程 3 和 进程 5。 在 t +1 时刻 ， 
这 丙 个 进程 收 到 这 个 部 分 (时 间 单 位 为 矩阵 部 分 在 邻接 的 进程 间 的 通信 和 链 路 上 传送 所 需 时 间 )。 同样 ， 
近 离 进程 4 的 进程 收 到 该 部 分 的 时 间 更 迟 。 进 程 1 (在 边界 上 ) 收 到 该 部 分 后 并 不 转发 。 
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考虑 第 一 次 迭代 中 元 素 的 移动 。 在 每 一 步 ， 第 一 行 的 n/VP 个 元 素 从 进程 P, 发 送 到 进程 
Pi,1;。 同 样 ， 第 一 列 的 元 素 从 进程 Pj 发 送 到 进程 Pij,,。 每 一 步 耗 时 B( n/Yp )。 在 6(Vp ) 步 
后 ， 进 程 PYP,NP 得 到 第 一 行 和 第 一 列 的 相应 元 素 ， 时 间 为 @(n)。 在 流水 线 模式 下， 后继 行 和 
列 的 元 素 耗 时 (np)。 因 此 ， 进 程 PYP ,VP 完成 最 短路 计算 中 自己 部 分 的 时 间 为 @(n3/p)+B(n)。 
当 进程 PYP ,YP 完成 第 (n-1) 次 氨 代 后 ， 就 将 第 n 行 和 第 A 列 的 相应 值 发 送 给 其 他 的 进程 。 这 些 
值 在 8@(n) 时 间 后 到 达 进 程 Pi,。 这 种 形式 的 并 行 运行 时 间 为 
计算 


: 3\ 通信 
"ff me 
fp 一 站 () + QQ(n) 
p 


由 于 串 行 运行 时 间 为 W = B@(m?)， 加 速 比 和 效率 如 下 : 

On’) 
O(n3/p) + Qn) 

] 

”1 8607 | | (10-7) 

从 公式 (10-7) 可 以 看 出 ， 对 于 成 本 最 优 的 并 行 形式 ，p/n? = 0O(1)。 因 此 ，Floyd 算 法 的 流水 
线形 式 最 多 能 有 效 使 用 O(n?) 个 进程 。 同 样 ， 用 公式 (10-7) 也 能 推导 由 通信 和 带 来 的 等 效率 函数 
为 89(p'5))。 这 也 是 整体 等 效率 函数 。 比较 流水 线形 式 与 同步 的 2 维 块 映射 形式 可 知 ， 前 者 要 快 
得 多 。 . : 


10.4.3 性 能 比较 


对 分 带宽 OP) 的 并 行 体系 结构 上 ， 前 面 讲 过 的 全 部 顶点 对 间 的 最 短路 径 算 法 的 性 能 汇总 
在 表 10-1 中 。Floyd 流 水 线形 式 的 可 扩展 性 最 强 ， 并 能 最 多 使 用 6B(n?) 个 进程 在 B@(n) 时 间 内 求 
解 问题 。 而 且 ， 即 使 在 像 格 网 连接 计算 机 这 样 的 对 分 带宽 为 CCVP) 的 体系 结构 上 ， 这 种 并 行 
形式 也 有 同样 好 的 执行 性 能 。 此 外 ， 它 的 性 能 独立 于 路 由 选择 类 型 (存储 转发 路 由 选择 或 直 
通路 由 选择 )。 

表 10-1 对 分 带 寓 为 O(p) 的 不 同体 系 结构 上 ， 全 部 顶点 对 间 的 最 短路 径 算法 的 性 能 及 可 扩展 性 ， 

如 果 进 程 能 正确 映射 到 底层 处 理 咽 ， 则 k-d 立 方 体系 结构 的 运行 时 间 也 相同 


E = 6(1) 时 的 最 大 进程 数 。 ”对 应 的 并 行 运行 时 间 。 等 效率 函数 


Dijkstra 源 划分 8(n) 8(m) _- 8(p’) 
Dijkstra 源 并 行 eB(n2/log n) Bln log 门 8(( log p)!’) 
Floyd- - 维 块 映 射 B(n/log n) 8(m log n) - 8((p log p)’) 
Floyd 一 维 块 映 射 B(n2/iog2n) O(n log’ n) 日 (pl!5log3p) 
Floyd 流 水 线 二 维 块 映射 8B(n’) Bn) 8p'") 

10.5 传递 闭 包 


住 许多 应 用 中 ， 我 们 需要 确定 图 中 的 任意 两 个 顶点 是 否 连 通 。 通 常 ， 这 是 通过 找 出 图 的 
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传递 财 包 实现 的 。 从 形式 上 说 ， 如 果 C = (V, EE) 是 一 个 图 ，G 的 传递 闭 包 (transitive closure ) 
定义 为 图 G* = (V, E*)， 其 中 E* = {(w , vj)IG 中 存在 从 vi 到 vj 的 路 径 }。 我 们 通过 计算 连通 性 和 矩 
阵 4* 来 计算 图 的 传递 闭 包 。G 的 连通 ， | (connectivity matrix ) 为 这 样 一 个 知 阵 A* = (a* 1y)， 
如 果 存 在 从 yi 到 vv 的 路 径 或 i =j， 则 a’i; =] ， 否 则 a'ij = %。 
为 了 计算 A*， 我 们 对 下 的 名 条 过 版 权 什 并 对 这 个 加 权 图 使 用 任 一 全 部 顶点 对 间 的 最 短 
路 径 算法 。 和 矩阵 4* 可 从 和 矩阵 D 得 出 ， 其 中 D 是 全 部 顶点 对 间 的 最 短路 径 的 解 ， 如 下 式 : 
={ OO  ， di,j 二 Do 
,dij>0 ori=j 
计算 4* 的 另 一 种 方法 是 在 图 G 的 邻接 和 矩阵 上 用 Floyd 算 法 ， 在 算 靶 10-3 中 分 别 用 逻辑 or 和 
逻辑 and 操 作 替换 第 7 行 的 min 和 + 操作 。 此 时 ， 我 们 首先 在 i = 或 ((v,, w)E E 时 设置 4, = 1， 在 
其 他 情况 下 设置 cv = 0。 在 dv = 0 时 设置 a*;) = ~， 在 dij 不 为 0 时 设置 a';; =1， 就 可 得 出 4*。 计 
算 传 递 闭 包 的 复杂 度 为 @(n3)。 


10.6 连通 分 量 


无 问 图 @ = (V, E) 的 连通 分 量 (connected component) 是 这 样 的 最 大 不 相连 集合 C, C,, .… 
Ci, V= CIU C2U...UC:, Hu, vEC, 当 且 仅 当 x 从 v 可 达 和 v 从 x 可 达 。 无 问 图 的 连通 分 量 是 在 
从 … 可 达 ” 关 系 下 的 顶点 的 等 价 类 。 例 如 ， 图 10-10 是 有 3 个 连通 分 量 的 无 向 图 。 


10-10 有 3 个 连通 分 量 {1, 2, 3,4}、{5, 6, 7} 和 {8, 9} 的 图 
深度 优先 搜索 算法 


对 图 进行 深度 优先 遍历 可 以 找 出 图 的 连通 分 量 。 深 度 优先 遍历 的 结果 是 深度 优先 树 的 树 
林 ， 树 林 中 每 一 棵 树 都 包含 属于 不 同 连通 分 量 的 顶点 。 图 10-11 展 示 这 种 算法 ， 算 法 的 正确 性 
直接 从 生成 树 的 定义 〈 即 深度 优先 树 也 是 由 深度 优先 树 中 一 组 顶点 导出 的 图 的 生成 树 ) 以 及 G 
是 无 向 图 这 一 事实 推出 。 假 设 图 用 稀疏 表示 法 存储 ， 由 于 深度 优先 遍历 算法 要 记 历 图 G 中 的 所 
[46 有 边 ， 算 法 的 运行 时 间 为 8(IE1)。 
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图 10-11 图 b) 是 对 图 a) 进行 深度 优先 遍历 得 到 的 深度 优先 树林 。 
这 些 树 的 每 一 棵 都 是 图 a) 的 连通 分 量 
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算法 的 并 行 形式 


连通 分 量 算法 的 并 行 化 步 受 是 : 将 图 G 的 邻 楼 矩阵 划分 成 p 个 部 分 ， 并 把 每 个 部 分 分 配给 p 
个 进程 之 一 。 每 个 进程 P; 拥 有 图 G 的 一 个 子 图 G; ， 其 中 G; = (V, E,)，E 是 与 分 配给 进程 的 邻接 
和 矩阵 的 部 分 对 应 的 边 。 在 这 种 并 行 形式 的 第 一 步 ， 每 个 进程 P; 计算 图 G; 的 深度 优先 生成 树林 。 
在 此 步 结束 时 就 构造 了 p 个 生成 树林 。 在 第 二 步 ， 生 成 树林 按 对 合并 ， 直 到 只 剩 下 一 个 生成 树 
林 。 这 剩 下 的 生成 树林 有 一 个 性 质 : 如 果 两 个 顶点 位 于 同一 棵 树 上 ， 则 它们 是 在 图 G 的 同一 连 
通 分 量 中 。 图 10-12 展 示 这 个 算法 。 

为 了 有 效 地 合并 成 对 的 生成 树林 ， 算 法 只 使 用 不 相连 的 边 集 。 假 设 图 G 的 子 图 的 生成 树林 中 
的 每 一 棵 树 都 用 一 个 集合 表示 。 不 同 树 的 集合 成 对 地 不 相连 。 下 面 是 定义 在 不 相连 集合 上 的 操作 : 
” find(w) 返 回 一 个 指针 ， 指 向 包含 < 的 集合 中 的 代表 元 素 。 每 个 集合 都 有 其 唯一 的 代表 。 

union(x, ?) 合 并 包含 元 素 x 和 y 的 集合 。 假 定 这 两 个 集合 在 操作 前 不 相连 。 

生成 树林 的 合并 方法 如 下 : 令 A4 和 8B 为 两 个 待 合并 的 生成 树林 ， 一 个 树林 中 最 多 n-1 条 边 
(因为 4 和 8 是 树林 ) 与 另 一 个 树林 中 的 边 合并 。 假 设 要 把 树林 4 合并 到 树林 B。 对 A 的 每 一 条 边 
(u,v)， 对 每 一 个 顶点 执行 一 次 find 操 作 确定 是 否 两 个 顶点 已 处 于 B 中 同一 棵 树 上。 如 果 不 是 ， 
则 8 中 包含 wc 和 v 的 两 棵 树 (集合 ) 通过 union 操 作 合并 ,否则 不 需要 进行 union 操 作 。 因 此 ， 合 
并 4 和 8B 最 多 需要 2(n-1) 次 find 操 作 和 (n~1) 次 union 操 作 。 我 们 可 使 用 分 等 级 及 路 径 压缩 的 不 相 
连 集合 树林 来 实现 这 种 不 相连 集合 数据 结构 。 用 这 种 实现 方法 ， 进 行 2(n-1) 次 find 操 作 和 (n- 
1) 次 union 操 作 的 成 本 为 O(n)。 关 于 不 相连 集合 树林 的 详细 讨论 它 超 出 本 书 的 范围 ， 读 者 可 以 
查阅 书目 评注 的 参考 文献 (10.8 节 )。 

讨论 了 如 何 有 效 地 合并 两 个 生成 树林 后 ， 现 在 集中 到 如 何 划 分 图 G 的 邻接 矩阵 ， 并 在 p 个 进 
程 中 分 配 它 。 下 面 的 部 分 讨论 使 用 1 维 块 映射 的 划分 形式 。 另 一 种 划分 方案 在 习题 10.12 中 讨论 。 

1 维 块 映射 、 n x n 的 邻接 答 阵 被 分 成 p 个 条 带 (3.4.1 节 )。 每 个 条 带 由 n/p 个 连续 的 行 构成 ， 
并 分 配给 p 个 进程 之 一 。 为 了 计算 连通 分 量 ， 每 个 进程 首先 为 个 顶点 的 图 计算 生成 树林 ， 用 
分 配给 它 的 邻接 矩阵 的 n/p 个 行 表示 。 : 

考虑 含 p 个 进程 的 消息 传递 计算 机 。 计 算 基于 分 配给 每 个 进程 的 (n/p) x n 邻 楼 矩阵 的 生成 
树林 ， 需 要 时 间 B(n*Yp)。 算 法 的 第 二 步 一 一 逐 对 合并 生成 树林 一 一 通过 向 进程 懂 入 一 个 虚拟 
树 来 实现 。 有 log p 个 合并 阶段 、 每 个 阶段 耗 时 B(n)。 因 此 ， 合 并 花费 的 成 本 为 8(n log p)。 最 
后 ,在 每 个 合并 阶段 ， 生 成 树林 在 最 近 的 邻居 间 传 送 。 回 忆 生 成 树林 要 传送 8(n) 条 边 。 因 此 ， 
通信 成 本 为 @(n log p)。 连 通 分 量 算法 的 并 行 运行 时 间 为 

局 部 计算 


一 树林 合并 
nn rr ea 
Tp= 日 (5) + O(n log p) 
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由 于 串 行 复杂 度 为 下 = B(mn”)， 加 速 比 和 效率 如 下 : 


O(n2) 
O(n2/p) + Qn log p) 
] 
1 + QO((p log p)/n) (10-8) 


从 公式 (10-8) 可 以 看 出 ， 对 于 成 本 最 优 的 并 行 形式 ，p = O(n/iog n)。 从 公式 (10-8) 还 可 推导 出 
等 效率 函数 为 BG(p"log’p)。 这 是 由 通信 以 及 在 合并 阶段 额外 的 计算 带 来 的 等 效率 函数 。 由 于 并 发 
产生 的 等 效率 函数 为 BG(p”); 所 以 ， 整 体 等 效率 图 数 为 BC2log?z)。 在 消息 传递 计算 机 上 ， 这 个 并 
行 形式 的 性 能 与 Prim 的 最 小 生成 树 算法 以 及 Dijkstra 的 全 部 顶点 对 间 的 最 短路 径 算法 的 性 能 相似 。 
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图 10-12 并 行 计 算 连 通 分 量 


注 : a) 中 图 G 的 邻接 今 隆 被 分 成 如 图 b) 所 示 的 两 个 部 分 。 接 下 来 ， 每 个 进程 得 到 如 图 c) 和 图 e) 所 
示 的 G 的 子 图 。 然 后 每 个 进程 计算 子 图 的 生成 树林 ， 如 图 d) 和 图 f) 所 示 。 最 后 ， 两 梯 生 成 树 合并 
得 到 最 终结 果 。 
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10.7 稀疏 图 算法 


以 前 各 节 讲 到 的 并 行 算法 都 是 稠密 图 问题 的 知名 算法 。 但 是 ， 我 们 尚未 涉及 稀疏 图 的 并 
行 算法 。 前 面 曾 提 到 ， 如 果 I 媚 远 小 于 IV2， 则 图 G = (V, 五 为 稀疏 图 。 图 10-13 表 示 儿 种 黎 玻 图 。 


a) b) 


图 10-13 稀疏 图 实例 : a) 每 个 顶点 有 两 条 关联 边 的 线性 图 ; 
b) 每 个 顶点 有 4 条 关联 边 的 网 格 图 ;i c) 随机 稀 玻 图 


所 有 稠密 图 算法 都 能 在 稀疏 图 上 正确 运行 。 但 是 ， 如 果 进 一 步 考 虑 图 的 稀疏 度 ， 则 通常 
可 以 显著 地 提升 性 能 。 例 如 ， 不 考虑 图 的 边 数 时 ，Prim 的 最 小 生成 树 算法 的 运行 时 间 为 @(n?)。 
如 果 修 改 Prim 算 法 ， 使 用 邻接 表 及 一 个 二 元 堆 ， 则 算法 的 复杂 度 下 降 为 edBllog n)。 所 以 只 要 
IE| = OUnz/log n)， 修 改 后 的 算法 就 会 好 于 原 算法 。 提 出 稀疏 图 算法 很 重要 的 一 个 步 难 是 使 用 
邻接 表 而 不 是 邻接 矩阵 。 这 种 表示 上 的 改变 是 关键 性 的 ， 因 为 基于 邻接 年 阵 的 算法 的 复杂 度 
通常 是 Q(n?)， 并 且 与 边 数 无 关 。 相 反 ， 基 于 邻接 表 的 算法 的 复杂 度 通常 是 Q(n+lEl)， 它 依赖 
于 图 的 稀疏 度 。 

在 稠密 图 串 行 算法 的 并 行 形式 中 ， 通 过 划分 图 的 邻接 矩阵 ， 使 得 每 个 进程 能 分 配 到 大 致 
相同 的 任务 ， 并 且 通 信 是 本 地 化 的 ， 从 而 获得 良好 的 性 能 。 我 们 能 达到 这 种 结果 ， 主 要 由 于 
图 是 稠密 的 。 例 如 ， 考 虚 Floyd 全 部 顶点 对 间 的 最 短路 径 算法 。 通 过 从 邻接 矩阵 中 分 配 同 样 大 
小 的 块 给 每 个 进程 ， 使 任务 被 均匀 分 配 。 而 且 ， 由 于 每 个 块 由 连续 的 行 和 列 组 成 ， 通 信 开 销 
受到 限制 。 

然而 ， 对 于 稀 比 图 很 难 实 现 均匀 分 配 任务 及 低 通 信 开 销 。 考 虑 划分 图 的 邻接 表 的 问题 。 
一 种 可 能 的 划分 是 分 配 同 等 数目 的 顶点 和 它们 的 邻接 表 给 每 个 进程 。 但 是 ， 与 给 定 顶 点 关联 
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的 边 数 可 能 不 同 。 因 此 ， 有 些 进 程 可 能 会 被 分 配 大 量 的 边 ， 而 另 一 些 进程 分 到 很 少 ， 导 致 进 
程 闻 明显 的 任务 不 平衡 。 同 样 ， 我 们 也 可 以 分 配 同 等 数目 的 边 给 每 个 进程 。 这 就 可 能 需要 在 
多 个 进程 间 分 割 一 个 顶点 的 邻接 表 。 结 果 ， 存 储 邻 接 表 不 同 部 分 的 进程 间 的 通信 时 间 可 能 显 
著 增 加 。 因 此 ， 对 于 常见 的 稀疏 图 ， 很 难 导出 有 效 的 并 行 形式 (习题 10.4 和 10.5)。 但 是 ， 如 
果 稀 疏 图 具有 一 定 的 结构 ， 则 通常 能 得 出 有 效 的 并 行 形式 。 例如， 考虑 如 图 10-14 所 示 的 街道 
地 图 。 与 地 图 对 应 的 图 是 稀疏 的 : 与 任意 顶点 关联 的 边 数 最 多 为 4。 这 种 图 称 为 网 格 图 (grid 
graph )。 我 们 也 可 以 从 其 他 类 型 的 稀疏 图 中 推导 有 效 的 并 行 形式 ， 如 与 形状 规则 的 有 限 元 格 
网 对 应 的 图 以 及 顶点 度数 相近 的 图 等 。 对 于 这 些 类 型 的 图 ， 下 面 两 小 节 将 给 出 有 效 的 算法 ， 
用 于 查找 顶点 的 最 大 独立 集 以 及 计算 单 源 最 短路 径 。 


sel 


站] 口 癌 器 
DD 
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a) b) 
图 10-14 街道 地 图 


注 : 街道 地 图 a) 可 用 图 b) 来 表示 。 在 图 b) 中 ,每 个 街道 的 交点 是 一 个 顶点 ， 每 条 边 是 一 段 街 道 。 图 b) 
中 的 顶点 是 图 a) 中 用 黑 点 标 出 的 交点 。 


10.7.1 查找 最 大 独立 集 


下 面 考 虑 查找 图 顶点 的 最 大 独立 集 (Maximal Independent Set，MIS) 问题 。 给 定 稀疏 的 
无 向 图 G = (7, E)。 如 果 / 中 任何 一 对 顶点 都 不 能 由 G 中 的 一 条 边 相 连 ， 则 称 顶 点 集合 1 CV 为 
独立 集 (independent set)。 如 果 在 1! 中 加 入 不 属于 /的 任何 其 他 顶点 集合 就 不 再 独立 ， 则 独立 集 
451| 称 之 为 最 大 的 。 这 两 个 定义 在 图 10-15 中 说 明 。 注 意 ， 如 图 中 的 例子 所 示 ， 最 大 独立 集 不 是 唯 
一 的 。 在 某 些 类 型 的 任务 图 中 ， 顶 点 的 最 大 独立 集 可 用 来 确定 哪些 计算 可 以 并 行进 行 。 例 如 ， 
在 不 完全 因 式 分 解 并 行 算法 中 ， 最 大 独立 集 可 用 来 确定 可 并 发 因 式 分 解 的 行 的 集合 ， 另外 ， 

最 大 独立 集 也 可 用 来 并 行 计 算 图 的 着 色 问 题 。 
计算 顶 扣 的 最 大 独立 集 已 提出 许多 算法 。 最 简单 的 一 类 算法 从 初始 设置 集合 /为 空 开始 ， 
452| ”将 所 有 的 顶点 放 和 集合 C 中 ， 作 为 等 待 进入 /的 候选 顶点 集合 。 然 后 算法 重复 地 将 顶点 从 C 中 移 
到 /中 ,并 从 C 中 除去 所 有 和 邻接 的 顶点 。 这 个 过 程 到 集合 C 为 空 时 终结 ， 此 时 /为 最 大 独立 集 。 
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得 到 的 集合 /含有 顶点 的 独立 集 ， 因 为 每 次 向 1 中 添加 顶点 时 ， 都 要 从 C 中 除去 所 有 以 后 并 加 进 
去 将 违反 独立 条 件 的 项 点。 此 外 ， 得 到 的 集合 也 是 最 大 的 ， 因 为 任何 一 个 还 未 在 /中 的 顶点 都 
至 少 与 /中 的 一 个 顶点 邻接 。 


{a,d,i,h} 是 独立 集 
fa.c,j,f,g} 是 最 大 独立 集 
{a, d,h,f} 是 最 大 独立 集 





图 10-15 独立 集 及 最 大 独立 集 示 例 


虽然 上 面 的 算法 非常 简单 ， 但 因为 其 串 行 性 质 ， 不 适合 并 行 处 理 。 因 此 ， 并 行 MIS 算 法 通 
常 基于 最 初 由 Luby 开 发 的 用 于 计算 图 的 着 色 问 题 的 随机 算法 。 使 用 Luby 算 法 ， 一 个 图 的 顶点 
V 的 最 大 独立 集 1 用 下 面 的 递增 形式 计算 : 集合 /初始 设置 为 空 ， 并 设置 候选 顶点 集合 C 与 集合 V 
相等 。 一 个 唯一 的 随机 数 被 分 配给 C 中 的 每 一 个 顶点 ， 如 果 某 一 顶点 的 随机 数 小 于 它 的 相 邻 顶 
点 的 所 有 随机 数 ， 则 它 加 入 到 1 中 。 集 合 C 被 更 新 ， 除 去 所 有 被 选择 加 入 到 /中 的 顶点 以 及 它们 
的 相 邻 顶点 。 注 意 被 选择 加 入 到 1 中 的 顶点 确实 是 独立 的 ( 即 没有 通过 一 条 边 的 直接 连接 )。 
这 是 因为 ， 如 果 v 被 插入 到 1 中 ， 则 分 配给 v 的 随机 数 是 所 有 分 配给 它 的 相 邻 顶点 的 随机 数 中 最 
小 的 ， 因 此 ， 不 会 选择 相 邻 于 v 的 其 他 顶点 加入。 对 于 C 中 剩余 的 顶点 ， 重 复 上 面 的 随机 数 分 
配 及 顶点 选择 步 又 ， 而 /同样 地 扩大 。 当 C 变 为 空 时 ，/ 的 递增 扩大 结束 。 平 均 而 言 ， 这 个 算法 
在 O(logIWl) 次 递增 后 收敛 。 图 10-16 展 示 算 法 在 一 个 小 图 上 的 执行 情况 。 下 面 讨论 在 共享 地 址 
空间 计算 机 上 Luby 算 法 的 并 行 形式 。 这 个 算法 在 消息 传递 平台 上 的 实现 在 讲述 消息 传递 的 那 
一 章 中 讨论 。 

共享 地 址 空间 并 行 形式 

在 共享 地 址 空间 并 行 计算 机 上 ，Luby 的 MIS 算 法 的 并 行 形式 如 下 。 令 /为 大 小 为 |WI 的 数组 ，。 
在 算法 终止 时 ， 如 果 vi 是 MIS 的 一 部 分 ， 则 1[ 存 储 1， 否 则 0。 初 始 时 ， 所 有 /中 的 元 素 都 被 设 
置 为 0%， 在 Luby 算 法 的 每 次 迭代 中 ， 数 组 中 的 一 些 项 会 变 为 1。 令 C 为 大 小 是 VI 的 数组 ， 在 算 
法 的 执行 过 程 中 ， 如 果 项 点 w 是 候选 集 的 一 部 分 ， 则 C 四 为 1， 否 则 为 0。 初 始 时 ， 所 有 C 中 的 
元 素 被 设置 为 1。 最 后 ， 令 R 为 大 小 是 IVI 的 数组 ， 存 储 分 配给 每 个 顶点 的 随机 数 。 

在 每 次 迭代 中 ， 集 合 C 在 p 个 进程 中 划分 。 每 个 进程 为 从 C 中 分 配 到 的 顶点 产生 一 个 随机 
数 。 当 所 有 的 进程 都 产生 随机 数 后 ， 就 来 确定 哪些 顶点 能 包含 在 /中 。 特 别 地 ， 对 每 个 分 配给 
它们 的 项 点， 这 些 进程 都 要 检查 分 配给 自己 的 随机 数 是 否 小 于 分 配给 它 的 所 有 相 邻 顶点 的 随 
机 数 。 如 果 是 ， 这 些 进 程 设置 中 相应 的 项 为 1。 由 于 R 是 共享 的 并 能 被 所 有 的 进程 访问 ， 确 定 
某 一 顶点 是 否 包含 在 7 中 非常 简单 。 

数组 C 也 可 用 以 如 下 的 直接 方式 更 新 。 每 个 进程 在 确定 了 某 一 个 顶点 v 将 成 为 /中 的 一 员 后 ， 
将 与 它 的 邻接 矩阵 对 应 的 C 中 的 项 置 0。 注 意 即 使 可 能 有 不 止 一 个 进程 会 设 C 中 的 项 为 0 (因为 
它 可 能 和 不 止 一 个 待 插入 到 1 中 的 顶点 邻接 )， 这 种 并 发 写 人 操作 也 不 会 改变 结果 的 正确 性 ， 
因为 被 并 发 写 的 值 是 相同 的 。 
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Luby 算 法 每 次 迭代 的 复杂 度 与 串 行 算 法 的 相似 ， 但 要 加 上 每 个 随机 数 分 配 后 额外 的 全 局 
同步 开销 。 有 关 Luby 算 法 的 详细 分 析 留 作 习 题 (习题 10.16)。 


禾 独 六 集中 的 顶点 


( 与 独立 集中 顶点 邻接 的 顶点 








c) 最 后 的 最 大 独立 集 


b) 第 二 次 随机 数 赋值 后 


图 10-16 Luby 随 机 最 大 独立 集 算法 的 不 同 扩大 步骤 。 每 个 顶点 中 的 
数字 对 应 于 分 配给 每 个 顶点 的 随机 数 


10.7.2 单 源 最 短路 径 


容易 修改 Dijkstra 的 单 源 最 短路 径 算 法 ， 使 其 能 有 效 地 应 用 于 寻找 稀疏 图 最 短路 径 。 修 改 
后 的 算法 称 为 Johnson 算 法 。 回 忆 Dijkstra 算 法 在 每 次 欠 代 中 进行 如 下 两 步 操作 。 第 一 步 ， 找 出 
一 个 顶点 u E (V-W)， 其 中 lx] = min{ lyjlv e(V-W)}， 并 把 它 揪 入 到 集合 六 中 。 第 二 步 ， 
对 于 每 个 顶点 v E (V-Vr)， 计 算 1fy]= minf ifv], lfu] +w(u, v)}。 要 注意 的 是 ， 在 第 二 步 中 ， 只 
需要 考 虚 4 的 邻接 表 中 的 顶点 。 由 于 图 是 稀疏 的 ， 与 4 邻接 的 顶点 数目 要 小 于 B(n); 因此 ， 使 
用 邻接 表 表示 能 提升 性 能 。 z 

Johnson 算 法 使 用 优先 队列 Q 来 存储 每 个 顶点 v E (Y-Vr) 的 1[v] 值 . 优先 队列 的 构造 方法 是 ， 
/中 值 最 小 的 顶点 总 在 队列 的 前 面 。 通 常用 最 小 二 分 维 来 实现 优先 队列 。 我 们 可 用 最 小 二 分 堆 


在 时 间 O(log nn) 内 对 每 个 顶点 更 新 i[v]。 算 法 10-5 显 示 Johnson 算 革 。 初 始 时 ， 对 于 不 是 源 点 的 


每 个 顶点 vy， 算法 将 /[v] = %“ 插 入 到 优先 队列 中 。 对 于 源 顶 点 ;:， 算 法 插入 l[s] = 0。 在 算法 的 每 
一 步 ，! 中 具有 最 小 值 的 顶点 x E(V-V7) 从 优先 队列 中 除去 。 遍 历 u 的 邻接 表 ， 对 于 每 条 边 (u， 
vy)， 在 堆 中 更 新 从 lv] 到 顶点 v 距 离 。 更 新 堆 中 的 顶点 占据 算法 整体 运行 时 间 的 主要 部 分 。 更 新 
的 总 次 数 等 同 于 边 的 个 数 ; 因此 ，Johnson 算 法 的 整体 复杂 度 为 8(lEliog n)。 





算法 10-5 Johnson 的 串 行 单 源 最 短路 径 算法 
procedure JOHNSON_SINGLE SOURCE_SP(V, E, s) 


1. 

2. begin 

3. 0 := V; 

4. forallve Odo 

5S, li[v|] := oo; 

6. lits} := 0; 

7. while O $do 

8. begin 

9. u := extract min(O); 

10. for each v € Adj[u] do 

11. ifv € C and lI[u] + wlu, v) < I[v] then 
12. tv] := lu} + wu, v); 
13. endwhile 


14， end JOHNSON_SINGLE_SOURCE_SP 


1. 并 行 化 策略 

有 效 的 Johnson 算 法 的 并 行 形 式 必 须 能 有 效 地 维持 优先 队列 CD。 简 单 的 策略 是 让 一 个 进程 ， 
例如 Po。， 来 维持 CQ。 其 他 的 进程 可 以 对 v E(V-Vr) 计 算 l[v] 的 新 值 ， 并 把 值 传 给 Po 以 更 新 优先 队 
列 。 这 种 策略 有 两 个 主要 局 限 。 首 先 ， 由 于 用 一 个 进程 来 维护 优先 队列 ， 整 体 并 行 运行 时 间 
为 O(Ellog n) (共有 OUELD) 次 队列 更 新 ， 每 次 更 新 需 时 O(lEllog n))， 这 样 就 导致 此 并 行 形式 没 
有 渐 近 加 速 比 ， 因 为 OUEHog nn) 与 串 行 运行 时 间 相 同 。 其 次 ， 在 每 次 迭代 过 程 中 ， 算 法 大 约 要 
更 新 IEMIVI 个 顶点 。 结 果 ， 在 任 一 指定 时 刻 不 会 有 超过 IElIVI 个 进程 忙于 运算 ， 对 于 绝 大 多 数 
有 价值 的 稀疏 图 类 别 来 说 ，IEVIVI 是 很 小 的 值 ， 并 且 它 与 图 的 大 小 无 关 。 

通过 将 维持 优先 队列 的 任务 分 配给 多 个 进程 可 以 减少 以 上 第 一 种 局 上限， 但 这 不 是 一 项 简 
单 的 任务 ， 只 有 在 像 共 享 地 址 空间 计算 机 这 样 的 低 延 迟 体系 结构 上 才能 有 效 解 决 。 然 而 ， 即 
使 在 最 佳 条 件 下 ， 当 每 次 优先 队列 更 新 只 需 0(1) 时 间 时 ， 能 得 到 的 最 大 加 速 比 也 只 是 非常 小 
的 O(log n)。 缓 解 第 二 种 局 限 的 方法 是 ， 根 据 处 于 优先 队列 顶部 顶点 的 ! 值 大 小 ， 一 次 可 以 取 
出 一 个 以 上 的 顶点 。 特 别 地 ， 如 果 * 是 位 于 优先 队列 顶部 的 顶点 ， 满 足 ![z] = ![v] 的 所 有 的 顶 
点 都 可 以 提取 出 来 ， 而 它们 的 邻接 表 进 行 并 发 处 理 。 这 是 因为 ， 和 源 点 有 着 同样 最 小 距离 的 
顶 扣 可 以 按 任意 顺序 处 理 。 注 意 ， 为 了 实现 这 个 方法 ， 必 须 用 锁 步 的 方法 处 理 和 源 点 有 着 同 
样 节 小 嘴 离 的 所 有 项 点。 如 果 我 们 知道 图 中 所 有 边 的 最 小 权 值 为 m， 那 么 还 可 以 进一步 提高 并 
发 度 。 在 这 种 情况 下 ， 所 有 满足 条 件 ![ul < lfv] + m 都 可 (以 销 步 形式 ) 并 发 处 理 。 这 些 顶 点 4 
称 为 安全 (safe) 顶点 。 然 而 ， 只 有 当 多 于 一 个 优先 队列 的 更 新 操作 能 并 发 进行 时 ， 这 种 并 发 
才能 带 来 比 O(log n) 更 好 的 渐 近 加 速 比 ， 但 却 使 维持 单一 优先 队列 的 并 行 算法 更 加 复杂 。 

到 目前 为 止 ， 我 们 主要 讨论 开发 Johnson 算 法 的 并 行 形式 ， 以 串 行 算法 同样 的 顺序 查找 到 
每 个 顶点 的 最 短路 径 ， 以 及 并 发 地 探寻 安全 顶点 。 但 是 ， 从 土 面 可 以 看 出 ， 这 种 方法 会 导致 
算法 复杂 化 ， 且 使 并 发 程度 降低 。 另 一 种 方法 是 ， 开 发 一 种 对 安全 的 和 不 安全 的 顶点 都 并 发 
处 理 的 并 行 算法 ， 只 要 这 些 不 安全 的 顶点 可 以 通过 源 点 经 由 一 条 路 径 到 达 即 可 ， 这 条 路 径 包 
含 最 短路 径 已 算出 的 顶点 ( 即 它们 在 优先 队列 中 相应 的 ! 值 不 是 无 穷 )。 特 别 地 ， 在 这 种 算法 
中 ，P 个 进程 的 每 一 个 都 取出 p 个 顶部 顶点 的 一 个 ， 并 继续 更 新 与 它 相 邻 的 顶点 的 / 值 。 当 然 ， 
这 种 方法 的 问题 是 不 能 保证 从 优先 队列 中 取出 的 顶点 的 ! 值 一 定 与 最 短路 径 的 成 本 对 应 。 例 如 ， 


> 
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考虑 uw 和 v 是 优先 队列 顶部 的 两 个 顶点 ， 且 lv] < Llu]。 根 据 Johnson 算 法 ， 当 顶点 从 优先 队列 中 
取出 时 ， 它 的 ! 值 是 从 源 点 到 该 顶点 的 最 短路 径 的 成 本 。 现 在 ， 如 果 有 一 条 边 连接 vy 和 u， 使 得 
lv] + wy < la]， 则 此 时 到 4 的 最 短路 径 的 正确 值 是 1[y] + w(u,y)， 而 不 是 lu]。 但 是 ， 如 果 
能 检查 出 到 某 一 顶点 的 最 短路 径 的 计算 有 误 ， 并 用 更 新 后 的 ! 值 插入 回 优先 队列 ， 就 能 保证 结 
果 的 正确 性 。 我 们 可 用 如 下 的 方法 进行 检查 。 考 虑 一 个 顶点 v 刚 从 队列 中 取出 并 令 u 是 与 v 相 邻 
且 已 从 队列 中 取出 的 顶点 。 如 果 lv]】 + wu,?) 小 于 1[x]， 则 到 4 的 最 短路 径 的 计算 有 误 ， 需 要 将 
u 插 回 到 优先 队列 中 ， 且 fw] = fv] + w(x, v)。 

图 10-17 所 示 的 网 格 图 展示 这 个 方法 的 执行 过 程 。 图 中 的 例子 有 三 个 进程 ， 要 找 出 来 自 项 
点 4 的 最 短路 径 。 初 始 化 优先 队列 后 ， 顶 点 和 顶点 4 从 源 点 可 达 。 在 第 一 步 ， 进 程 Po 和 疡 取出 
顶点 b 和 顶点 4， 并 更 新 与 bp 和 ad 相 邻 的 顶点 的 ! 值 。 在 第 二 步 ， 进 程 P,、P1 和 和 P; 取 出 顶点 e、c 和 8， 
并 更 新 与 它们 相 邻 的 顶点 的 ! 值 。 注 意 ， 当 处 理 顶 点 e 时 ， 进 程 Po 检 查 l[e] + w(e, q) 是 否 小 于 或 
大 于 ld]。 在 本 例 中 le] + wle, qd) > /加 ,表示 考虑 e 时 ， 先 前 计算 出 的 到 < 的 最 短路 径 不 会 改变 ， 
并 且 到 此 步 为 止 所 有 的 计算 都 是 正确 的 。 在 第 三 步 ， 进 程 Po 和 PP 分 别处 理 4 和 f。 当 进程 Po 比较 
1[h] + w(h, g)《( 值 为 5) 与 在 前 一 次 迭代 中 取出 的 LIB] ( 值 为 10) 时 ， 进 程 Po 发 现 1[h] + w(h, g) 
较 小 。 因 此 ， 它 把 顶点 8 插 回 到 优先 队列 ， 且 更 新 jg] 值 。 最 后 ， 在 第 四 步 和 最 后 一 步 ， 从 优 
先 队 列 中 取出 剩余 的 两 个 顶点 并 计算 所 有 单产 最 短路 径 。 


优先 队列 数组 加 






abcde 
(1) b:1, d:7, c:ing, esinf finf. g:inf. h:inf iinf 
(2) :3, c:4, g:10, fiinf h-inf iinf 
(3) 有 4 FE Linf 
(4) g:5, i:6 





图 10-17 用 修正 后 的 Johnson 算 法 并 发 处 理 不 安全 顶点 的 实例 


这 种 Johnson 算 法 的 并 行 形式 属于 3.2.4 节 讨论 过 的 推测 分 解 方法 。 事 实 上 ， 算 法 假设 优先 
队列 中 顶部 p 个 顶点 的 0 值 在 处 理 这 些 顶 点 时 不 发 生 改变 ， 这 样 就 能 继续 进行 Johnson 算 法 所 
需 的 计算 。 但 是 ， 如 果 在 后 面 的 步 又 发 现 假设 错误 ， 算 法 就 返回 ， 并 重新 计算 有 关 顶 点 的 最 
短路 径 。 

为 了 有 效 实现 这 种 推测 分 解 算 法 ， 必 须 消除 用 一 个 优先 队列 的 瓶颈 。 接 下 来 我 们 将 提出 
一 个 消息 传递 算法 ， 它 用 推测 分 解 来 达到 并 发 ， 且 没有 单一 的 优先 队列 。 作 为 代替 ， 每 个 进 
程 对 分 配给 它 的 顶点 维持 自己 的 优先 队列 。 习题 10.13 还 讨论 另 一 种 方法 。 


2. 分 布 式 内 存 形式 

令 p 为 进程 数 ，G = (V, 如 为 稀疏 图 。 我 们 将 顶点 集合 V 划 分 为 p 个 不 相连 的 集合 站， 岂 ，.…， 
 ， 并 将 每 个 顶点 集 及 其 对 应 的 邻接 表 分 配给 p 个 进程 之 一 。 每 个 进程 对 分 配给 它 的 顶点 维持 
一 个 优先 队列 ， 并 计算 从 源 点 到 这 些 顶 点 的 最 短路 径 。 这 样 优先 队列 @ 就 分 成 p 个 不 相连 的 优 
先 队 列 Q,，Q，，.…，Q, ， 每 个 分 配给 一 个 独立 的 进程 。 除 了 优先 队列 外 ， 每 个 进程 已 还 维持 
一 个 数组 sp， 使 得 对 于 每 个 v E V; ，sp[v] 存 储 从 源 顶 点 到 v 最 短路 径 的 成 本 。 每 次 当 顶 点 v 从 优 
先 队 列 中 取出 时 ， 成 本 sp[v] 更 新 为 [vy]。 初 始 时 ， 对 于 不 是 源 点 的 顶点 v，sp[v] = % ， 而 对 于 
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源 顶 点 s， 我 们 将 i[s] 插 入 到 相应 的 优先 队列 中 。 每 个 进程 对 其 本 地 的 优先 队列 执行 Johnson 算 
法 。 在 算法 的 最 后 ，sp[v] 存 储 从 源 点 到 顶点 v 的 最 短路 径 长 度 。 

当 进 程 P; 从 Qi; 中 取出 使 ![u] 最 小 的 顶点 u € Vi 时 ,分 配给 其 他 进程 的 顶点 的 ! 值 可 能 需要 更 
新 。 进 程 P; 发 送 消 息 给 存储 与 x 相 邻 顶点 的 进程 ， 告 知 它们 这 些 新 值 。 收 到 这 些 新 值 后 ， 进 程 
更 新 ! 的 值 。 例 如 ,假设 有 一 条 边 (x, v)， 其 中 u E V; ，v E V; ， 进 程 P; 刚 从 优先 队列 中 取出 顶 
护 4。 然 后 进程 P; 发 送 消 息 给 P; ，Pj 中 包含 i[v] 可 能 的 新 值 ![x] + w(u, v)。 进 程 Pj; 收 到 这 个 消息 
后 ， 将 存储 在 它 的 优先 队列 中 的 /[v] 改 为 min{ I[v], i[u] + w(u, v)}。 

由 于 进程 P; 和 P; 执 行 Johnson 算 法 ， 进 程 Pj 可 能 已 从 它 的 优先 队列 中 取出 了 顶点 v。 也 就 是 
说 进程 Pi 可 能 已 经 算出 从 源 点 到 顶点 v 的 最 短路 径 spf[y]。 这 样 就 有 两 种 可 能 情况 : 或 者 sp[v] < 
L[4] + w(u, v)， 或 者 sp[v] > lfu] + w(u, v)。 第 一 种 情况 表示 存在 一 条 经 过 顶点 u 到 顶点 v 的 更 长 
路 径 ， 第 二 种 情况 表示 存在 一 条 经 过 顶点 x 到 顶点 v 的 更 短路 径 。 对 于 第 一 种 情况 ， 进 程 己 无 
需 做 什么 ， 因 为 到 v 的 最 短路 径 没 有 改变 。 对 于 第 二 种 情况 ， 进 程 P) 必须 更 新 到 顶点 v 的 最 短 
路 径 成 本 。 为 了 实现 这 一 步 ， 必 须 以 Lv] = ifu] + wlu, v) 将 顶点 v 插 回 到 优先 队列 ， 不 考虑 sp[v] 
的 值 。 由 于 能 把 顶点 v 再 插入 到 优先 队列 中 ， 只 有 当 所 有 的 队列 为 空 时 ， 算 法 才 终 止 。 

初始 时 ， 只 有 含 源 点 进程 的 优先 队列 为 非 空 。 此 后 ， 当 创建 包含 新 值 的 消息 并 发 送 到 相 
邻 的 进程 时 ， 其 他 进程 的 优先 队列 中 就 会 含 较 多 的 项 。 当 进程 收 到 ;的 新 值 后 ， 把 新 值 插入 到 
自己 的 优先 队列 并 进行 计算 。 考 虑 在 网 格 图 中 计算 源 点 位 于 左下 角 的 单 源 最 短路 径 问 题 ， 计 
算 在 网 格 图 中 以 波动 的 形式 向 前 传播 。 在 波 到 达 前 进程 空 闪 ， 波 通过 后 进程 也 空闲 ， 如 图 
10-18 所 示 。 在 算法 执行 的 任意 时 刻 ， 只 有 沿 着 波 的 进程 繁忙 。 其 他 的 进程 要 么 还 没有 开始 计 
算 ， 要 么 已 经 计算 完毕 。 下 面 几 段 将 讨论 三 种 将 网 格 图 映射 到 p 个 进程 格 网 的 方法 。 





图 10-18 优先 队列 中 活动 的 波 


2 维 块 映射 ”使 用 2 维 块 映射 (3.4.1 节 ) 可 以 将 n x n 网 格 图 映射 到 p 个 处 理 器 。 特 别 地 ，、 我 
们 把 p 个 进程 看 作 逻 辑 格 网 ， 并 把 大 小 为 n/ Vp xn/Vp 个 顶点 的 不 同 块 分 配给 每 个 进程 ， 图 
10-19 说 明 这 种 映射 。 

在 任何 时 刻 ， 繁 忙 的 进程 数目 等 于 与 波 相交 的 进程 数目 。 由 于 波 按 对 角 线 方向 运动 ， 在 
任何 时 刻 繁忙 的 进程 数目 不 超过 O( Vp )。 令 为 执行 串 行 算法 需要 做 的 全 部 工作 。 如 果 我 们 


> 


假设 在 任何 时 刻 都 有 Vp 个 进程 进行 计算 ， 并 忽略 进程 间 的 通信 开销 以 及 其 他 的 额外 工作 ， 则 [55 


万 大 加 速 比 及 效率 如 下 : 
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这 种 映射 的 效率 很 低 ， 且 当 进 程 数 目 增加 时 效率 会 更 糟 。 
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图 10-19 用 2 维 块 映射 将 网 格 图 a) 映射 到 格 网 b)。 本 例 中 ， 
1 = 16，\JP =4。 阴 影 顶点 映射 到 阴影 进程 


2 维 循环 映射 ”2 维 块 映 射 的 主要 限制 是 每 个 进程 只 负责 网 格 中 一 个 很 小 的 有 限 区 域 。 如 
果 使 用 2 维 循环 映射 ， 则 可 以 使 每 个 进程 负责 网 格 中 一 个 扩散 的 区 域 (3.4.1 节 )。 这 样 就 延长 
每 个 进程 繁忙 的 时 间 。 在 2 维 循环 映射 中 ，n x n 网 格 图 被 分 成 na?/p 个 块 ， 每 个 块 的 大 小 
为 VP x JP 。 每 个 块 映射 到 VP x VP 进程 格 网 。 图 10-20 展 示 这 种 映射 。 每 个 进程 包含 一 个 有 
n/p 个 顶点 的 块 。 这 些 顶 点 在 图 的 对 角 线 上 ， 相 隔 Vp 个 顶点 。 每 个 进程 大 约 分 配 2n/ Vp 个 
这 种 对 角 线 。 
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a) b) 
图 10-20 用 2 维 循环 映射 将 网 格 图 a) 映射 到 格 网 b)。 本 例 中 ， 
n=16，yp =4。 阴 影 顶 点 映射 到 相应 的 阴影 格 网 进程 
现在 ， 每 个 进程 都 负责 属于 网 格 图 中 不 同 部 分 的 顶点 。 当 波 经 过 图 传播 时 ， 波 与 每 个 进程 
的 一 些 顶 点 相交 。 因 此 ， 在 算法 的 绝 大 部 分 时 间 里 处 理 器 保持 繁忙 。 但 2 维 循环 映射 比 2 维 块 喘 
射 有 更 大 的 通信 开销 。 因为 相 邻 的 顶点 驻 留 在 分 开 的 进程 中 ， 每 次 进程 从 它 的 优先 队列 中 取 顶 
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图 10-22 计算 波 在 网 格 图 由 穿 过 时 繁忙 的 进程 数目 
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因此 ， 这 种 映射 的 最 大 效率 为 50%。1 维 块 映射 在 本 质 上 好 于 2 维 块 映射 ， 但 不 能 使 用 多 
于 O(n) 个 进程 。 


10.8 书目 评注 


许多 书籍 详细 讨论 图 论 及 图 算法 .Gibbons[Gib85] 是 本 章 中 提 到 算法 的 一 本 很 好 的 参考 书 。 
Aho，Hopcroft 和 Ulliman[AHU74] 和 Cormen，Leiserson 和 Rivest[CLR90] 详 细 讲 述 多 种 图 的 算 
法 ， 以 及 与 在 串 行 计算 机 上 有 效 实现 这 些 算法 相关 的 问题 。 : 

10.2 节 讲述 的 串 行 最 小 生成 树 算 法 由 Prim[Pri57] 提 出 。 en 
Yoo[DY81] 给 出 PrimMST 算 法 的 并 4 了 形式 。 Deo 和 Yoo 的 算法 适用 于 共享 地 址 空间 计算 机 。 
能 在 B@(n'5) 时 间 内 用 8B(n%5) 个 进程 找 出 MST。 Bentley 的 算法 使 用 于 树 连接 的 收缩 数组 ， 有 在 
B(n log 门 时 间 内 用 m/log "个 进程 找 出 MST。 Prim 的 最 小 生成 树 第 法 的 超 立方 体形 式 (10.2 布 ) 
与 Bentiey 的 算法 相似 。 

图 的 MST 也 可 用 Kruskal[KruS6] 或 Sollin[Sol77] 的 串 行 算法 计算 。Sollin 算 法 (习题 10.21) 
的 复杂 度 为 G(n?log n)。Savage 和 Jaja[SI81] 在 CREW PRAM 上 为 Sollin 算 法 开发 了 一 种 并 行 形 
式 ， 能 在 6(iog?m 时 间 内 用 壮 个 进程 找 出 最 小 生成 树 。 而 Chin，Lam 和 Chen[CLC82] 在 CREW 
PRAM 上 为 Sollin 算 法 开发 了 另 一 种 并 行 形式 ， 能 在 6(log 吧 时 间 内 用 z[wleg .n] 个 进程 找 出 最 
小 生成 树 。 Awerbuch 和 Shiloach[AS87] 在 混 洗 - 交换 网 络 为 Sollin 算 法 提出 一 种 并 行 形式 ， 能 
在 B(log?n) 时 间 内 使 用 8(m?) 个 进程 完成 。 Doshi 和 Varman[DV87] 在 含 p 个 进程 的 环形 连接 计算 
机 上 为 Sollin 算 法 提出 用 时 为 @(n*p) 的 算法 。Leiphton[Lei83]， 以 及 Nath， Maheshwari 和 
oo 对 于 n x n 的 格 网 树 ， 前 一 个 算法 用 时 
为 BG(log?n)， 后 一 种 算法 用 时 为 8(logn)。 对 Vp x Vp 的 树 形 格 网 。Huang[Hua85] 描 述 Sollin 
四 法 的 年 全 形式 的 运行 时 间 为 @(r?/p)。 

10.3 节 讲述 的 单 源 最 短路 径 算法 由 Dijkstra[Dij59] 发 现 。 因 为 Dijkstra 算 法 与 Prim 的 MST 算 
法 很 相似 ， 前 面 几 段 讲 述 和 的 Prim 算 法 的 所 有 并 行 形式 都 能 应 用 于 单 源 最 短路 径 问 题 。 
Beliman[BelS8] 和 Ford[FR62] 独 立 开发 了 单 源 最 短路 径 算 法 ， 能 对 有 负 权 但 没有 负 权 圈 的 图 进 
行 操 作 。Bellman-Ford 单 源 最 短路 径 算法 的 串 行 复杂 度 为 O(IVibED。Paige 和 Kruskal[PK89] 为 
Dijkstra 和 Bellman-Ford 算 靶 提 出 并 行 形式 。Dijkstra 算 法 的 并 行 形式 运行 在 8B(n) 个 进程 的 
EREW PRAM 上， 运 运行 时 间 为 @(nlog n); Bellman-Ford 算 法 的 并 行 形式 运行 在 p 个 进程 的 
EREW PRAM 上 ， 运 行 时 间 : 为 @(nlE\/p+n log p)， 其 中 p <1。 他 们 也 提出 CRCW PRAM 上 的 
算法 [PK89]。 

人 们 对 全 部 顶点 对 间 的 最 短路 径 问 题 也 做 了 重要 工作 ， Jenq 和 Sahni[JS87] 以 及 Kumar 和 
Singh[KS91b] 讨 论 Dijkstra 全 部 顶点 对 间 的 最 短路 径 的 源 划分 形式 。 Paige 和 天 ruskal[PK89] ， 
以 及 Kumar 和 Singh[IKS91b] 都 研究 了 Dijkstra 全 对 顶点 间 最 短路 径 的 源 并 行 形式 。10.4.2 节 讲述 
的 Floyd 全 部 顶点 对 间 的 最 短路 径 算法 由 Fioyd[Flo62] 提 出 。1 维 和 2 维 块 映射 形式 (习题 10.8) 
由 Jenq 和 Sahni[JS87] 提 出 ， 而 Floyd 算 法 的 流水 线 版 本 由 Bertsekas 和 Tsitsiklis[BT89] 以 及 
Kumar 和 Singh[KS91b] 提 出 。 Kumar 和 Singh[KS91b] 还 为 全 部 顶点 对 间 的 最 短路 径 算 法 在 超 立 
方 体 连 接 和 格 网 连接 计算 机 上 的 不 同 并 行 形式 提出 等 效率 分 析 和 性 能 比较 。10.4.3 节 的 讨论 借 
俭 Kumar 和 Singh[KS91b] 以 及 Jenq 和 Sahni[JS87] 的 工作 。 -特别 地 ， 算 法 10-4 取 自 Jeng 和 
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Sahni[JS87] 的 论文 。Levitt 和 Kautz[LK72] 提 出 Floyd 算 法 的 一 种 二 维 细胞 阵列 的 并 行 形式 ， 用 
个 进程 而 运行 时 间 为 86(n)。Deo，Pank 和 Lord 在 CREW PRAM 模 型 上 为 Floyd 算 法 开发 了 一 
种 并 行 形式 ， 使 用 忆 个 进程 的 复杂 度 为 6(n)。Candy 和 Misra[fCM82] 提 出 基于 扩散 式 计算 的 分 
布 式 全 部 顶点 对 间 的 最 短路 径 算法 。 

10.6 节 讲述 的 连通 分 量 算法 由 Woo 和 Sahni[WS89] 提 出 。Cormen，Leiserson 和 
Rivest[CLR90] 讨 论 使 用 等 级 和 路 径 奈 缩 有 效 地 实现 不 相连 集 数 据 结构 的 方法 。 还 有 几 种 算法 
用 于 计算 连通 分 量 ， 其 中 有 些 算法 基于 顶点 压缩 技术 ， 与 Sollin 的 最 小 生成 树 算法 相似 。 绝 大 
多 数 Sollin 算 法 的 并 行 形式 都 能 找 出 连通 分 量 。Hirschberg[Hir76] 以 及 Hirschberg ，Chandra 和 
Sarwate[HCS79] 为 连通 分 量 算法 开发 了 基于 顶点 压缩 的 并 行 形式 ， 前 者 在 CREW PRAM 上 使 
用 进程 数目 为 ?时 的 复杂 度 为 G(logn)， 而 后 者 使 用 下 [n/log| 个 进程 的 复杂 度 相同 。Chin， 


Lam 和 Chen[CLC82] 通 过 在 CREW PRAM 上 把 进程 数目 减少 为 n[n/log?n]， 更 有 效 地 实现 了 顶 一 


扩 压 缩 算 法 ， 且 使 运行 时 间 保 持 在 B(log?n)。Nassimi 和 Sahni[NS80] 使 用 顶点 压缩 技术 对 格 网 
连接 的 计算 机 开发 了 一 种 并 行 形式 ， 使 用 个 进程 ， 运 行 时 间 为 6@(n)。 

10.7.2 闻 中 讲述 的 稀 疏 图 单产 最 短路 径 算 法 是 由 Johnson[Joh77] 提 出 的 。Paige 和 
Kruskai[PK89] 讨 论 并 行 维持 队列 @ 的 可 行 性 。 Rao 和 Kumar[RK88a] 提 出 在 优先 队列 中 进行 并 
发 插入 和 删除 操作 的 方法 。Johnson 算 法 的 2 维 块 映射 、2 维 循环 网 射 以 及 1 维 块 映射 《10.7.2 节 ) 
由 Wada 和 lchiyoshi[WI89] 提 出 。 各 们 对 这 各 方法 在 格 网 连接 并 行 计算 机 上 也 进行 了 理论 和 实 
验 评 估 。 

Luby[Lub86] 提 出 10.7. 1 闻 讲 述 的 串 行 最 大 独立 集 算法 ， 其 在 共享 地 址 空间 体系 结构 上 的 
并 行 形式 受到 Karypis 和 Kumar[KK99] 算 法 的 影响 。 Jones 和 PlassmanfgP93] 为 Luby 算 法 开发 了 
一 个 异步 版 本 ， 它 特别 适用 于 分 布 式 内 存 的 并 行 计算 机 。 在 他 们 的 算法 中 ， 每 个 顶点 被 分 配 
一 个 随机 数 ， 经 过 一 步 通信 操作 后 ， 每 个 顶点 都 要 确定 与 它 相 邻 预 点 中 大 于 它 的 随机 数 或 小 
于 它 的 随机 数 的 顶点 个 数 。 划 时 ， 每 个 顶点 进入 一 个 循环 ， 等 待 接收 它 的 相 邻 顶点 中 随机 数 
更 小 的 顶点 的 色彩 值 。 一 旦 收 到 了 所 有 的 色彩 值 ， 顶点 选择 一 个 连续 的 色彩 ， 并 把 它 发 送 给 
所 有 有 更 大 随机 数 的 顶点 。 算 法 在 所 有 的 顶点 着 色 后 终止 。 注 意 ， 除了 用 来 确定 更 小 的 和 更 
大 的 相 邻 顶点 数目 的 初始 通信 操作 外 ， 这 个 算法 都 异步 执行 。 

人 们 也 提出 了 其 他 的 并 行 图 算法 。Shiloach 和 Vishkin[SV82] 提 出 了 在 有 向 流 网 络 查找 最 
大 流 的 算法 ， 网 络 有 m 个 顶点 ， 在 "个 进程 的 EREW PRAM 上 的 运行 时 间 为 O(n?log n)。 
Goldberg 和 Tarjan[GT88] 提 出 了 一 种 不 同 的 最 大 流 算法 ， 算 法 在 # 个 进程 的 EREW PRAM 上 的 
运行 时 间 为 O(nm?log n)， 但 需要 的 空间 较 小 。 Atallah 和 Kosaraju[AK84] 提 出 了 多 个 用 于 格 网 连 


接 并 行 计算 机 的 算法 。 他 们 考虑 的 算法 包括 : 用 于 查找 无 向 图 中 桥 和 联接 点 的 算法 、 查找 最 


短 轿 长 度 的 算法 、 查 找 MST 的 算法 、 查找 循 入 索引 的 算法 以 及 测试 图 是 否 为 二 分 图 的 算法 。 
Iarjan 和 Vishikin[TV85] 提 出 了 计算 图 的 双 连 通 分 量 的 算法 。 他 们 的 CRCW PRAM 形 式 在 使 用 
BUEl + 1 让) 个 进程 时 所 需 时 间 为 8@(log nn)， 而 他 们 的 CREW WRAM 形 式 在 使 用 8(nYlogm) 个 进 
程 时 所 需 时 间 为 @(log?n)。 


习题 


10.1 在 Prim 最 小 生成 树 算法 的 并 行 形式 中 (10.2 节 )， 起 立方 体 中 能 有 效 使 用 的 最 大 浊 
程 数 目 为 G(n/log n)。 使 用 B(n/log n) 个 进程 所 需 的 运行 时 间 为 BC log n)。 如 果 使 用 B(n) 个 进 
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程 ， 则 运行 时 间 是 多 少 ? 在 消息 传递 并 行 计 算 机 上 能 获得 的 最 小 并 行 运行 时 间 是 多 少 ? 这 个 
运行 时 间 与 使 用 (log 六 个 进程 相 比 ， 结 末 如 何 ? 

10.2 ”说 明 为 什么 Dijkstra 单 源 最 短路 径 算 法 及 其 并 行 形式 〈10.3 节 ) 为 了 输出 最 短路 径 
而 不 是 输出 成 本 时 ， 需 要 做 一 些 修改 ? 分 析 你 的 串 行 形式 及 并 行 形 式 的 运行 时 间 。 

10.3 给 定 一 个 图 G = (V, E)， 图 G 中 顶 后 的 宽度 优先 等 级 是 从 节点 v 对 图 作 宽 度 优先 遍历 
时 ， 分 配给 Y 中 的 顶点 的 值 。 请 说 明 如 何在 p 个 进程 的 格 网 中 实现 图 G 顶 点 的 宽度 优先 等 级 。 

10.4 。 Dijkstra 的 单 源 最 短路 径 算 法 (10.3 节 ) 需要 边 权 值 为 非 负 。 请 修改 该 算法 ,使 之 
能 适用 于 边 权 值 为 负 但 不 含 负 权 圈 的 图 ， 且 运行 时 间 为 BdENVD。 在 个 进程 的 消息 传递 计算 
机 上 分 析 修 改 后 算法 并 行 形式 的 性 能 。 

10.5 10 4 字 中 时 论 了 全 部 硕 扣 对 间 的 壤 短 路 径 算法 的 多 种 并 行 了 形式 ， 请 计算 这 些 形式 所 
需 的 内 存 总 量 。 

10.6 如 果 用 下 面 的 语句 行 罕 换 算法 10- 3 的 第 7 行 ， 说 明 10.4.2 忆 讲述 的 Floyd 算 法 仍 是 下 
确 的 : 

di = mintd/ (dk 十 中 让 


10.7 清 计算 Floyd 全 部 顶点 对 间 的 最 短路 径 算法 的 并 行 运行 时 间 . 加 速 比 以 及 效率 。a. 
在 采用 存储 转发 路 由 选择 的 pz 个 进程 格 网 上 使 用 2 维 抉 映射 ，b. 在 采用 直通 路 由 选择 的 p 个 进程 
超 立 方 体 中 使 用 2 维 块 映 射 “. 在 采用 直通 路 由 选择 的 p 个 进程 格 网 中 使 用 2 维 块 映射 。 

10.8 在 Floyd 全 部 顶点 对 阅 的 最 短路 径 算法 中 ， 也 可 以 使 用 1 维 块 映射 (3.4.1 池 ) 划分 盾 
阵 D4%。 惩 阵 D% 申 mp 个 连续 的 列 被 分 配给 p 个 进程 的 每 一 个 。.， 

a) 计算 在 超 立 方 体 连接 的 并 行 -计算 机 上 使 用 1 维 块 映射 时 的 并 行 运行 时 间 加 速 比 以 及 

效率 。 与 10.4.2 节 中 讲述 的 2 维 块 映 射 相 比 ;， 这 种 映射 的 优点 和 忽 点 分 别 是 什么 ? 

b) 分 别 计算 在 采用 存储 转发 路 由 选择 的 p 个 进程 格 网 、 直 通路 由 选择 的 p 个 进 稳 格 网 以 及 

直通 路 由 选择 和 的 p 个 进程 环 中 使 用 1 维 块 映射 时 的 并 行 运行 时 间 、 加 速 比 以 及 效率 。 

10.9 ”描述 并 分 析 使 用 10.4.2 节 讨论 的 1 和 有 出 及 流水 线 技术 时 ， oy 工法 的 并 行 形式 
的 性 能 。 

10.10 试 计算 Floyd 流 水 线形 式 (1042 忆 ) 的 准确 并 行 运行 时 间 、 加 速 比 以 及 效率 ， 

10.11 分 别 计算 在 p 个 进程 的 格 网 中 采用 存储 转发 路 由 选择 及 直通 路 由 选择 时 ，10.6 节 讲 
本 站 连通 分 量 香 法 并 行 形式 的 并 行 运行 时 间 ， 加 速 比 以 及 效率 。 比较 两 种 不 同体 系 结构 上 的 
性 能 差异 。 

10.12 10: 6 抽 讲 述 的 连通 分 呈 问 题 的 并 行 形式 用 1 维 沁 映射 在 多 个 进程 间 划 分 逢 了 请 考 
虑 另 一 种 使 用 2 维 块 映射 的 并 行 形式 。 并 分 别 在 超 立 方 体 、 采 用 存储 转发 路 由 选择 的 格 网 以 及 
和 用 守 通 路 由 选择 的 格 殉 上 迫 述 并 分 析 这 种 形式 的 性 能 和 可 扩展 履 将 这 种 方法 与 1 维 块 映 射 
相 比 较 。 

10.13 清 考虑 如 何 针对 称臣 图 (10.7.2 节 ) 将 Johnson 单 源 最 短路 径 算法 并 行 化 . 一 种 并 
行 形式 是 使 用 pi! 个 进程 维持 优先 队列 ，p, 个 进程 计算 新 的 ! 值 。 有 多 少 个 进程 能 被 有 效 地 用 于 
维 皖 优 先 队 列 ( 换 旬 话 说 ，p1 的 最 大 值 是 多 少 ) ? 有 多 少 个 进程 可 用 来 更 新 /的 值 ? 使 用 pj + 
/个 进程 得 到 的 并 行 形式 是 不 是 成 本 最 优 的 方案 ”描述 用 P 个 进程 维持 优先 队列 的 算法 。 

10.14 ”考虑 针对 稀疏 图 的 Dijkstra 单 源 最 短路 径 算法 (10.7 节 )。 通 过 在 p 个 进程 的 超 立 方 
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体 上 将 "个 邻接 表 在 水 平方 向 的 进程 间 划 分 使 该 算法 并 行 化 ; 也 就 是 ， 每 个 进程 得 到 wp 个 表 。 
这 种 形式 的 并 行 和 运行 时 间 是 多 少 ? 邻接 表 也 可 在 进程 间 垂 直 分 配 ， 即 每 个 进程 得 到 每 个 邻接 
表 的 一 部 分 。 如 采 邻 接 表 中 包含 m 个 元 素 ， 则 每 个 进程 包含 有 mp 个 元 素 的 子 表 。 每 个 子 表 的 
最 后 一 个 元 素 有 一 个 指针 ， 指 向 下 -一 个 进程 的 元 素 。 这 种 形式 的 并 行 运行 时 间 及 加 速 比 是 多 
少 ? 它 能 使 用 的 最 大 进程 数目 是 多 少 ? 

10.15 对 Flioyd 的 全 部 顶点 对 间 的 最 短路 径 算 法 重复 习题 10-14。 

10.16 ”在 10.7.1 斑 中， 讨论 了 用 于 查找 稀疏 图 中 顶点 最 大 独立 集 的 Luby 共 享 地址 空间 算 
法 。 试 分 析 该 算法 的 性 能 ， 并 求 出 该 算法 的 并 行 运行 时 间 及 加 速 比 。 

10.17 计算 在 格 网 连接 计算 机 中 稀疏 图 单 源 最 短路 径 算法 (10.7.2 节 ) 在 采用 2 维 循环 映 
射 时 的 并 行 运行 时 间 、 加 速 比 以 及 效率 。 计 算 时 可 以 忽略 额外 工作 的 开销 ， 但 必须 考虑 由 通 
信 带 来 的 开销 。 

10.18 分 析 使 用 2 维 块 -循环 映射 (3.4.1 节 ) 时 稀 政 图 的 单 源 最 短路 径 算 法 (3.4.2 节 ) 的 
性 能 。 将 其 与 上 一 题 采用 2 维 循环 映射 时 的 性 能 比较 。 与 上 一 题 一 样 ， 忽 略 额外 工作 的 开销 ， 
但 必须 考虑 由 通信 带 来 的 开销 。 

10.19 考虑 3.4.1 节 中 讲述 的 1 维 块 -循环 映射 。 描 述 如 何 将 这 种 映射 应 用 到 稀疏 图 的 单 源 
最 短路 径 算法 中 。 计 算 这 个 映射 的 并 行 运 行 时 间 、 加 速 比 以 及 效率 。 计 算 时 可 以 忽略 额外 工 
作 的 开销 ， 但 必须 考虑 由 通信 带 来 的 开销 。 

10.20 将 10.7.2 市 提出 的 方案 与 习题 10.18 和 10.19 中 的 方案 作 比 较 ， 哪 种 方案 由 额外 计算 
带 来 的 开销 最 小 ? 

10.21 Sollin 算 法 (10.8 节 ) 从 7 个 孤立 顶点 的 树林 开始 。 在 每 次 欠 代 中 ， 对 于 树林 中 的 
每 一 棵 树 ， 算 法 同时 确定 树 中 的 任意 顶点 与 另 一 棵 树 中 的 顶点 相连 的 最 小 边 。 所 有 这 些 最 小 
边 都 被 加 入 到 树林 中 。 而 且 ， 两 棵 树 只 可 能 用 一 条 边 相 连 。 这 一 过 程 进行 到 树林 中 只 有 一 棵 
例 时 结束 ， 这 棵 树 就 是 最 小 生成 树 。 由 于 在 每 次 选 代 中 树 的 数目 至 少 减 少 一 半 ， 算 法 最 多 需 
要 log n 次 迁 代 寻找 最 小 生成 树 。 每 次 迭代 最 多 需要 O(n”) 次 比较 来 找 出 与 每 个 顶点 相关 联 的 最 
小 边 ， 因 此 ， 串 行 复杂 度 为 @(n*log n)。 试 在 n 个 进程 的 超 立 方 体 连接 并 行 计算 机 上 ， 开 发 
Sollin 算 法 的 并 行 形式 。 你 的 并 行 形式 的 运行 时 间 是 多 少 ? 这 种 形式 是 不 是 成 本 最 优 的 ? 467 

















第 11 章 离散 优化 问题 的 搜索 算法 


搜索 算法 可 用 来 求解 离散 优化 问题 (DOP)， 这 是 一 类 具有 重大 理论 与 实践 意义 的 计算 代价 
很 高 的 问题 。 求 解 DOP 的 搜索 算法 通过 从 有 限 或 者 可 数 无 限 的 可 能 解 集合 中 找 出 满足 特定 问 
题 准则 的 候选 解 。 离 散 优 化 问题 也 称 为 组 合 问题 。 


11.1 定义 与 实例 


离散 优化 问题 (discrete optimization problem ) 可 以 用 二 元 组 ($, f ) 表 示 。 集 合 5 是 所 有 满 
足 特定 约束 条 件 的 有 限 或 可 数 无 限 的 解 集合 。 这 个 集合 称 为 可 行 解 集合 (feasible solutions)。 
/是 成 本 国 数 ， 它 将 $ 中 的 每 一 个 元 素 映射 到 实数 集合 R 中 : 
f:S—R 


DOP 的 目标 就 是 找到 一 个 可 行 解 t,， 使 得 f(x) < 了 (x)， 其 中 x E 5。 
DOP 可 用 来 表示 许多 领域 的 问题 ， 例 如 规划 和 调度 ，VLSI 芯 片 布局 优化 ， 机 器 人 动作 规 
划 ， 数 字 电路 测试 模式 产生 ， 以 及 后 勒 和 控制 等 。 


例 11.1 0/1 整 数 线 性 规划 问题 
在 0/1 整 数 线性 规划 问题 中 ， 有 一 个 m x n 的 矩阵 4， 一 个 m x 1 的 向 量 b， 以 及 一 个 n x 1 的 
向 量 c。 目 的 是 找 出 一 个 元 素 的 取 值 只 能 是 0 或 1 的 n x 1 维 向 量 x， 7 必须 满足 约束 条 件 
/ AF2b 
而 且 交 数 
FG) = cI | z ， 
必须 取 最 小 值 。 对 于 这 个 问题 ， 集 合 S 就 是 所 有 满足 方程 4x > 5 的 向 量 x 的 值 的 集合 。 图 


例 11.2 九宫 问题 


九宫 问题 就 是 在 3 x 3 的 格子 中 ， 放 有 编号 从 1 到 8 的 8 个 滑 块 ， 还 剩 一 空格 (blank )。 与 空 
格 相 邻 的 滑 块 可 以 移动 到 空格 上 面 ， 当 某 个 滑 块 移 走 后 ， 它 原来 的 位 置 出 现 一 新 空格 。 根 据 
滑 块 的 排列 方式 不 同 ， 滑 块 有 4 种 可 能 的 移动 方式 ， 上 、 下 、 左 、 右 。 九 宫 重 排 问题 就 是 在 初 
始 排 列 以 及 最 终 排 列 已 经 给 定 情况 下 ， 找 出 一 种 移动 方法 : 要 求 用 最 少 的 滑 块 移动 次 数 ， 将 
请 块 由 初始 排列 转变 为 最 终 排列 。 图 11-1 是 一 九宫 问题 的 例子 ， 前 面 给 出 了 初始 排列 以 及 最 
终 排列 ， 以 及 从 初始 排列 到 最 终 排 列 一 种 移动 方法 。 

比 问 题 的 5 集合 就 是 将 滑 块 从 初始 排列 转变 为 最 终 排 列 的 所 有 移动 序列 的 集合 。S 中 一 个 
元 素 的 成 本 函数 /就 是 该 移动 序列 中 滑 块 的 移动 次 数 。 国 
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辆 上 次 移动 的 滑 块 ”器 ] , 空 滑 岂 
¢) 
图 11-1 九宫 问题 的 一 个 实例 : a) 滑 块 初始 排列 状态 ; b) 滑 块 最 终 排列 状态 ; 
c) 从 初始 排列 到 最 终 排列 的 滑 块 移动 序列 

， “对 于 绝 大 多 数 实际 问题 而 言 ， 解 集合 5 是 相当 大 的 。 因 此 ， 要 找 出 S 中 全 部 元 素 ， 并 从 中 
确定 最 优 解 xu ， 实 际 上 并 不 可 行 。 然 而 ，DOP 可 以 看 成 是 寻找 一 条 从 初始 节点 到 几 个 可 能 的 
目标 市 点 的 最 小 成 本 路 径 问 题 。5 中 的 每 个 元 素 x 均 可 看 成 是 一 条 从 初始 节点 到 某 个 目标 节点 
的 路 径 。 图 中 的 每 条 边 均 有 相应 的 成 本 ， 成 本 函数 / 被 定义 为 这 些 边 的 成 本 。 就 大 多 数 问题 市 
言 ,路 径 的 成 本 就 是 边 的 成 本 之 和 。 这 样 的 图 称 为 状态 空间 (state space)， 图 中 节点 称 为 状 
态 。 没 有 后 继 的 节点 称 为 终止 节点 (terminal node)， 其 他 的 节点 称 为 非 终 止 节点 (nonter- 
minal node)。 九 宫 问题 可 以 很 自然 地 表述 成 图 的 搜索 问题 。 特 别 ， 它 的 初始 排列 就 是 初始 节 
尽 ， 最 终 排 列 为 目标 节点 。 例 11.3 展 示 把 重新 表述 0/1 整 数 线性 规划 问题 的 过 程 作为 一 个 图 搜 
索 问 题 。 


例 11.3 重新 表述 0/1 整 数 线性 规划 问题 
考察 例 芽 .1 中 定义 的 0/1 线 性 规划 问题 的 二 个 实例 ; 令 A， 4b， c 的 值 如 下 : 


~ 训 宙 让 和 8 | 
六 = 和 ] 
1 d 可 
3 LU3 二 寺 jr 
t 


对 A ,b,c 的 限制 条 件 如 下 : 
JX1 十 2X2 十 X3 十 2x4 > 8 
Fh 3 2 
3X1 十 X2 十 xX3 十 > 5 
力 外 ， 取 最 小 值 的 函数 f(x) 为 
f (x) =2x1 + x2 ~ x3— 2x4 
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向 量 x 中 的 4 个 元 素 只 能 取 0 或 1。* 共有 24 = 16 个 可 能 的 值 。 然 而 ， 许 多 值 并 不 满足 问题 


的 限制 条 件 。 
现 将 问题 重新 表述 为 图 的 搜索 问题 。 在 初始 节点 中 ， 向 量 中 的 所 有 元 素 均 未 赋值 。 本 例 


中 ， 我 们 按 向 量 中 元 素 下 标的 次 序 对 向 量 元 素 赋值 ， 即 首先 对 x 赋值 ， 然 后 是 .并 依次 类 推 。 / 
这 样 ， 初 始 节 点 产生 两 个 节点 ， 即 zx = 0 和 xz = 1。 在 一 个 变量 x 被 赋值 后 ， 它 就 称 为 固定 变量 

(fixed variable )。 所 有 非 固 定 变 量 称 为 自由 变量 (free variable ) 。 

终止 节点 〈 非 目标 ) 

CD 非 终止 节点 

终止 节点 (目标) 






2 


fx)=0 f(x)=2 


图 11-2 对 应 于 0/1 整 数 线性 规划 问题 的 图 
在 一 个 变量 实例 化 为 0 或 1 后 ， 就 可 以 检查 在 剩余 自由 变量 的 实例 中 是 否 可 能 导致 可 行 解 。 
我 们 可 以 用 下 面 的 条 件 进 行 判 断 : 


Dax{Ai,j],0} + D, A jhe, > bii= lm (11-1) 
Xj 是 自由 的 ”7 是 国定 的 


通过 把 自由 变量 实例 化 为 0 或 1， 方 程 11-1 的 左 端 是 》,.,ALi,k]x; 能 取 到 的 最 大 值 。 若 这 个 
值 大 于 或 等 于 bi(i =1,2,…, m)， 那 么 节点 可 导致 一 个 可 行 解 。 
对 于 对 应 于 zx = 0 和 xi = 1 的 各 个 节点 ， 选 定 变量 并 对 其 赋值 。 然 后 检查 节点 是 否 能 得 到 
可 行 解 。 不 断 重复 这 个 过 程 ， 直 到 所 有 变量 都 被 赋值 ， 这 样 ， 就 得 到 问题 的 可 行 解 集 。 图 
11-2 展 示 这 个 过 程 。 
对 每 一 个 可 行 解 均 计 算 它 的 f (x)， 基 中 函数 值 最 小 的 就 是 我 们 要 找 的 解 。 注 意 ， 为 了 确定 
最 终 解 ， 没 有 必要 产生 人 金 部 可 行 解 。 有 几 种 搜索 算法 仅 搜索 图 的 一 部 分 就 可 确定 最 优 解 。 国有 


在 求解 基 些 问题 时 ， 我 们 可 以 估算 出 从 某 个 中 间 状 态 到 目标 状态 的 成 本 。 这 个 成 本 称 为 
局 发 式 估计 (heuristic estimate ) 。 令 国 数 /hz) 表 示 从 状态 x 到 目标 状态 的 启发 式 估计 ， 函数 g(o) 
表示 从 初始 状态 s 洛 当前 路 径 到 达 状 态 x 的 成 本 。 函 数 h 称 为 局 发 式 函 数 (heuristic function ) 。 
蔡 在 所 有 状态 x 中 ，h(x) 是 从 x 到 目标 状态 的 成 本 的 下 界 ， 则 称 h 为 容许 的 (admissible )。 定 义 


473 


348 务 11 曹 


图 数 !(xz) = h(x) + 8C0)。 若 i 是 容许 的 ， 则 !(9) 就 是 到 达 一 个 目标 状态 的 路 径 成 本 的 下 界 ， 这 个 
目标 状态 可 以 通过 扩展 s 与 x 之 间 的 当前 路 径 获 得 。 在 下 面 的 几 个 例子 中 ， 我们 将 利用 容许 启 
发 式 确定 从 初始 状态 到 达 目 标 状 态 的 最 小 成 本 移动 序列 。 
例 11.4 九宫 重 排 问题 的 容许 启发 式 函 数 

设 在 九宫 重 排 问 题 格子 中 的 每 个 位 置 用 一 个 数字 对 表示 。 数 字 对 (1, 1) 表 示 左 上 角 的 位 置 ， 
数字 对 (3, 3) 表 示 右 下 角 的 位 置 。 从 (i, 让 到 (k, ) 的 距离 定义 成 1i-k1+1j-11， 这 个 距离 称 为 曼 哈 
坦 距 离 (Manhattan distance)。 所 有 的 请 块 从 初始 位 置 移 动 到 最 终 位 置 的 曼 哈 坦 距离 之 和 就 是 
从 当前 排列 状态 转变 到 最 终 排列 状态 移动 次 数 的 一 种 估计 。 这 种 估计 称 为 曼 哈 坦 启发 式 
(Manhattan heuristic)。 注 意 ， 若 h(x) 是 排列 状态 x 到 最 终 排 列 状态 之 间 的 曼 哈 坦 距离 ， 则 h(x) 
也 是 从 排列 状态 x* 到 最 终 排列 状态 的 移动 次 数 的 下 界 。 因 此 ， 曼 哈 坦 启发 式 是 容许 的 。 六 


一 旦 将 DOP 表 示 成 一 个 图 的 搜索 问题 ,我 们 就 可 利用 分 支 定 界 搜索 和 启发 式 搜索 等 算法 
求解 。 这 些 算 法 借助 启发 式 和 搜索 空间 结构 求解 DOP， 无 需 完 全 搜索 集合 8。 

DOP 属 于 NP 难 题 一 类 问题 。 可 能 有 人 认为 ， 采 用 并 行 算 法 处 理 这 类 问题 没有 意义 ， 因 为 
在 最 坏 状 态 下 ， 必 须 使 用 指数 级 数量 的 处 理 器 ， 才 能 将 时 间 复 杂 度 降低 到 多 项 式 级 。 然 而 ， 
对 大 多 数 问题 来 说 ， 启 发 式 搜索 算法 的 时 间 复杂 度 是 多 项 式 级 的 。 此 外 ， 针 对 某 些 特定 的 问 
题 ， 有 些 局 发 式 搜索 算法 找 出 次 优 解 的 时 间 复 杂 度 也 是 多 项 式 级 。 在 这 种 情况 下 ， 我 们 可 以 
使 用 并 行 计 算 机 求解 较 大 的 问题 。 许 多 DOP 需 要 实时 处 理 ， 如 机 器 人 动作 规划 、 语 音 理解 和 
任务 调度 等 。 在 这 些 应 用 中 ， 只 有 采用 并 行 处 理 ， 性 能 才能 达到 要 求 。 在 其 他 追求 最 优 解 的 
问题 中 ， 采 用 并 行 搜索 技术 ， 我 们 可 以 在 合理 的 时 间 内 求解 中 等 规模 的 DOP 实 例 (例如 VLSI 
心 片 布置 图 优化 和 计算 机 辅助 设计 )。 





b) 
图 11-3 将 图 展开 成 树 的 两 个 例子 





11.2 顺序 搜索 算法 


应 用 于 一 个 状态 空间 的 最 合适 的 顺序 搜索 算法 ， 依 赖 于 空间 能 否 构成 图 或 树 。 在 树 中 ， 
每 个 新 的 后 继 都 通 向 搜索 空间 中 未 曾 到 达 的 部 分 。0/1 整 数 线性 规划 问题 就 是 一 典型 例子 。 然 
而 ， 对 图 而 言 ， 沿 不 同 路 径 可 能 到 达 同 一 个 状态 。 九 宫 问 题 就 是 这 样 的 例子 。 处 理 这 类 问题 ， 
无 论 何 时 产生 一 新 状态 ， 都 要 检查 该 状态 是 否 已 经 产生 。 若 不 作 检 查 ， 高 效 的 搜索 图 将 展开 
成 树 ， 一 个 状态 将 在 每 一 条 通 向 它 的 路 径 中 重复 出 现 ( 见 图 11-3 )。 

在 许多 问题 中 〈 如 九宫 问题 )， 展 开 只 是 稍微 增加 了 搜索 空间 的 大 小 。 然 而 ， 在 某 些 问题 
中 ， 展 开 的 图 可 能 比 原来 的 图 大 得 多 。 图 11-3b 显 示 一 个 图 及 其 展开 树 ， 该 树 拥有 指数 级 的 状 
态 数目 。 在 这 一 节 里 ， 我 们 将 概述 求解 不 同 的 DOP 的 顺序 搜索 算法 ， 这 些 DOP 均 可 表达 成 图 
或 树 的 搜索 问题 。 / 


11.2.1 深度 优先 搜索 算法 


若 DOP 可 表达 成 树 的 搜索 问题 ， 就 可 以 采用 深度 优先 搜索 (depth-first search, DFS) 算法 
求解 DOP。DFS 首 先 扩展 根 节点 并 产生 一 后 继 。 在 每 个 后 继 步 中 ，DFS 都 扩展 新 生成 的 节点 中 
的 一 个 。 若 节点 没有 后 继 (或 从 节点 不 能 导致 任何 解 )， 则 DFS 回 滴 ， 扩 展 另 外 一 个 节点 。 在 
某 些 DFS 算 法 中 ， 按 后 继 的 启发 式 值 的 大 小 顺序 ， 依 次 扩展 节点 的 后 继 。 深 度 优先 算法 的 存 
储 需 求 与 当前 搜索 的 状态 空间 深度 成 线性 关系 ， 这 是 它 的 一 主要 优点 。 下 面 讨论 基于 深度 优 
先 搜索 的 三 种 算法 。 


1. 简单 回潮 

简单 回 湖 (simple backtracking ) 是 一 种 深度 优先 搜索 方法 ， 当 找到 第 一 个 解 时 停止 搜索 。 
因此 ， 它 不 能 保证 找到 最 小 成 本 的 解 。 简 单 回 溯 不 用 启发 式 信息 对 扩展 节点 的 后 继 排 序 。 有 
序 回 溯 (ordered backtracking) 是 一 种 变形 ， 采 用 启发 式 对 扩展 节点 的 后 继 排序 。 


2. 深度 优先 分 支 定 界 

深度 优先 分 支 定 界 《(depth-first branch-and-bound, DFBB ) 搜索 整个 状态 空间 。 当 找到 一 
条 解 路 径 后 ， 再 继续 查找 下 一 条 。 若 找到 一 条 新 解 路 径 ， 及 时 更 新 当前 最 好 解 路 径 。DFBB 抛 
弃 局 部 较 差 的 路 径 0 1 7 后 生成 的 小径 肯 定 比 当前 最 住 解 巾 径 差 的 部 分 解 路 径 )。 车 当前 
最 佳 解 是 全 局 最 优 解 时 ， 搜索 终止， 


3. 选 代 加 深 A* 

对 应 于 DOP 的 树 可 能 非常 深 。 因 此 ， 当 一 个 解 存在 于 另 一 个 更 高 的 分 支 时 ， 搜 索 算法 可 
能 卡 在 搜索 空间 某 个 深 的 部 分 。 对 于 这 种 树 ， 我 们 可 以 设 定 深 度 优先 算法 搜索 的 一 个 深度 限 
制 。 如 果 某 个 被 扩展 的 节点 超过 限制 ， 节 点 将 不 再 扩展 ， 算 法 回溯 。 车 最 终 没 有 找到 解 ， 则 
重 设 一 个 更 大 的 限制 值 ， 重 新 搜索 整个 状态 空间 。 这 个 技术 称 为 选 代 加 深 深 度 优 先 搜 索 
(iterative deepening depth-first search, ID-DFS )， 二 浊 放 人 方法 只 能 保证 找到 边 最 少 的 解 路 径 ， 
而 不 能 保证 找到 成 本 最 小 的 路 径 。 

近代 加 深 A* (IDA*) 是 ID-DFS 的 变形 。 IDA+ 采 用 节点 的 / 苦 限 制 深度 (回顾 11-1 节 ， 对 
于 市 点 x，!0 = g(x) + PoD )。 IDA* 在 搜索 空间 内 重复 进行 成 本 受 限 的 深度 优先 搜索 。 在 每 次 
交代 中 ，IDA* 都 对 节点 进行 深度 优先 扩展 。 如 果 要 扩 展 市 点 的 ! 值 高 于 成 本 限制 值 ， 算 法 立即 
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回溯 。 如 果 在 当前 的 限制 下 ， 没 有 找到 解 ， 则 设置 更 大 的 成 本 限制 值 ， 重 复 上 述 的 深度 优先 
搜索 过 程 。 在 首次 迭代 中 ， 限 制 值 设 为 初始 状态 s 的 ! 值 。 注 意 由 于 g(s) 为 0，1(s) 等 于 h(s)。 在 
后 面 的 每 次 从 代 中 ,成 本 限制 值 逐 步 增 大 。 新 的 成 本 限制 值 设 为 所 有 节点 中 的 最 小 ! 值 ， 这 些 
节点 是 在 以 前 迭代 中 产生 但 尚未 扩展 的 节点 。 当 扩展 到 目标 节点 时 ， 算 法 终止 。 如 果 启 发 式 
函数 容许 的 ， 则 IDA* 能 保证 找 出 最 优 解 。 显 然 ， 在 迭代 过 程 中 ，IDA* 执 行 很 多 多 余 的 操作 。 
不 过 ， 对 许多 问题 来 说 ，IDA* 执 行 的 多 余 操 作 是 最 少 的 ， 因 为 大 部 分 工作 是 在 较 深 的 搜索 空 
间 里 完成 的 。 
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图 11-4 九宫 问题 中 采用 深度 优先 搜索 方法 的 前 三 步 状态 


例 11.5 深度 优先 搜索 :九宫 重 排 问题 


图 11-4 显 示 采 用 深度 优先 算法 求解 九宫 问题 的 过 程 。 搜 索 从 初始 布局 开始 这 个 状态 的 
后 继 由 清 块 的 可 能 的 移动 方式 产生 。 在 搜索 算法 的 每 步 中 ,选择 -新 状态 ， 同时 产生 它 的 后 
继 。DEFS 算 法 扩展 树 中 最 深 的 节点 。 在 第 二 步 ， 初 始 状态 A 产 生 状 态 B 和 C。 根据 预先 定义 的 
准则 ， 选 择 其 中 一 个 状态 。 本 例 中 ,我 们 根据 下 述 移动 方式 对 后 继 排 序 ， 上 、 下 、 去 、 右 。 
第 二 步 ， 在 DFS 算 法 中 选择 状态 B， 并 产生 状态 D、E、F。 注意 状态 D 可 以 丢弃 ， 因 为 它 是 状 
态 B 的 父 节点 的 复制 。 在 第 三 步 中 ， 我 们 选择 状态 E 进 行 扩展 ， 产 生 状 态 G 和 HH， 状态 G 又 可 丢 
弃 ， 因 为 它 是 B 的 复制 。 用 这 种 方法 进行 搜索 ， 直到 算法 回溯 或 者 产生 最 终 的 排列 状态 。 国 


在 DFS 算 法 的 每 步 中 ;必须 存储 未 经 处 理 的 状态 i 例如， 在 光 宫 问题 中 ， 每 步 可 能 要 存 
笠 最 多 三 个 未 处 理 的 状态 一 般 情 况 下 ,如 果 交 是 存储 一 个 状态 所 需 存储 单元 量 ， d 是 最 大 深 
度 ， 那么 DFS 所 需 的 总 的 存储 量 为 O(mal)。 采用 并 行 DFS 算 法 搜索 的 状态 空间 树 可 用 栈 来 表示 。 
由 于 栈 的 深度 随 树 的 深度 线性 增长 ， 栈 对 内 存 的 要 求 很 低 。 

借助 栈 ， 有 两 种 方法 可 以 存储 未 经 处 理 的 状态 。 一 种 方法 是 ， 在 每 步 中 ， 将 未 处 理 的 状 
态 压 人 到 栈 中 。 一 个 状态 的 祖先 不 会 在 栈 中 出 现 。 图 11-5b 显 示 图 11-5a 中 所 示 树 的 表示 。: 另 一 
种 方法 ， 如 图 11-5c 所 示 ， 未 处 理 状态 同 它们 的 父 状 态 存储 在 一 起 . 如 采 从 初始 状态 到 目标 状 
态 的 转换 序列 需要 作为 解 的 一 部 分 ， 则 必须 采用 第 二 种 存储 方法 。 再 者 ， 如 果 状 态 空间 是 这 
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样 的 图 ， 其 中 通过 应 用 到 当前 状态 的 一 个 变换 序列 可 以 产生 一 个 祖先 状态 ， 那 么 就 要 采用 第 
一 种 存储 方式 ， 因 为 它 允 许 我 们 检查 祖先 状态 的 重复 ， 从 而 在 状态 空间 中 消除 任何 圈 。 第 二 
种 方法 对 求解 九宫 问题 这 样 的 问题 是 很 有 用 的 。 在 例 11.5 中 ， 使 用 第 二 种 存储 方法 ， 使 算法 
能 够 检测 到 节点 D 和 C 应 被 舍弃 。 





图 11-5 DFS 树 的 表示 


注 : a) DFS 树 ; 树 中 虚线 表示 的 后 继 节点 已 搜索 过 。b) 仅 存放 未 搜索 节点 的 堆栈 。c) 存放 未 搜索 节 反 
及 其 父 节点 的 堆栈 。 阴 影 部 分 表示 父 节点 状态 ， 其 右边 的 块 表示 未 搜索 过 的 后 继 节 点 状态 。 


11.2.2 最 佳 优先 搜索 算法 


最 佳 优先 搜索 (BFS) 算 法 也 可 以 搜索 图 和 树 。 这 些 算 法 借助 启发 式 直接 搜索 空间 中 最 有 可 
能 产生 解 的 那些 部 分 。 对 最 有 希望 得 到 解 的 节点 赋予 较 小 的 启发 式 值 。 BFS 维 护 两 个 表 : 开 
放 表 与 封闭 表 。 开 始 时 ， 初 始 节 点 放 进 开放 表 。 启 发 式 评价 函数 估算 各 个 节点 产生 解 的 可 能 
性 ， 并 对 开放 表 中 的 节点 按 可 能 性 大 小 排序 。 在 搜索 过 程 中 的 每 步 ， 移 出 开放 表 中 最 有 可 能 
产生 解 的 节点 。 若 这 个 节点 是 目标 节点 ， 算 法 终止 。 否 则 ,扩展 节点 。 扩展 的 节点 进入 封闭 
表 。 若 新 扩展 节点 的 后 继 节 点 满足 以 下 条 件 之 一 ， 则 进入 开放 表 : 1) 后 继 节点 不 在 开放 表 与 
封闭 表 中 ，2) 后 继 节点 在 开放 表 或 者 封闭 表 中 ， 但 具有 较 小 的 启发 式 值 。 对 于 第 二 种 情况 ， 
具有 较 高 启发 式 值 的 节点 被 删除 。 

A* 算 法 是 一 种 通用 的 BFS 算 法 。A* 算 法 利用 下 界 函 数 ! 作 为 启发 式 评 价 函 数 (回忆 11.1 节 ， 
对 于 每 个 节点 x，l(x) = g(x) + h(x))。 开 放 表 中 的 节点 按照 1 函数 的 值 排序 。 每 步 移出 ! 值 最 小 的 
节点 〈 即 最 佳节 点 )， 并 对 其 扩展 。 该 节点 的 后 继 插 人 开放 表 的 适当 位 置 ， 同时 ， 节点 本 身 插 
入 封闭 表 。 对 于 一 个 容许 的 启发 式 函 数 ，A* 算 法 能 找 出 最 优 解 。 

BFS 算 法 的 主要 缺点 是 它 对 内 存 的 要 求 随 搜索 空间 的 大 小 线性 增长 。 对 许多 问题 而 言 ， 搜 
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索 空 间 的 大 小 随 树 深度 呈 指 数 级 增长 。 因 此 ， 对 于 搜索 空间 大 的 问题 ， 巨 大 的 内 存 需求 限制 
了 算法 的 应 用 。 
例 11.6 最 佳 优 先 搜索 ， 九 宫 问 题 


考察 例 11.2 和 11.4 的 九宫 问题 。 图 11-6 展 示 采 用 最 佳 优 先 搜索 求解 九宫 问题 的 4 个 步骤 。 
每 步 中 ， 选 择 / 值 (1(x) = g(x) + h(x)) 最 小 的 状态 x 进行 扩展 。 以 前 产生 的 所 有 节点 均 在 开放 


表 或 封闭 表 中 ， 因 此 BFS 能 够 查 出 重复 的 节点 。 鲍 
EL | he 
tl | 宰 汪 所 
1| slo 71 | S 上 次 移动 的 滑 块 
a) b) 
7| 2| 3 天 21 3| 
6 |4|6|5 6 |4|65 
|1| 8| 吕 | 1| siD 
A /Nem 
L212 | 7 29 E7203 | ?| 2| 3 
7 |4|6ID| |4|6|5|7 7 |4|6IOI |4l6|5| 7 
8|5 口 
步 又 2 y | 
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图 11-6 用 最 佳 优先 搜索 求解 九宫 问题 : a) 初始 排列 状态 ，b) 目标 排列 状态 ;。 
c) 最 佳 优 先 搜索 求解 的 前 4 步 产生 的 状态 ， 每 个 状态 标 以 相应 的 h 信 
(也 就 是 从 当前 状态 到 目标 状态 的 曼 哈 坦 距 离 ) 





11.3 搜索 开销 因子 


并 行 搜索 算法 的 开销 来 自 几 个 方面 。 这 些 开销 包括 通信 开销 、 负 载 不 平衡 引起 的 空 困 时 
间 以 及 对 共享 数据 结构 的 争 用 。 因 此 ， 如 果 某 个 算法 的 串 行 及 并 行 形式 完成 同样 数量 的 工作 ， 
在 P 个 处 理 器 进行 并 行 搜索 的 加 速 比 要 小 于 pP。 然 而 ， 由 于 串 行 与 并 行 形式 可 能 对 搜索 空间 不 
同 部 分 搜索 ， 它 们 的 工作 量 一 般 也 不 相同 。 

令 W 是 由 单 处 理 右 完成 的 工作 量 ，W, 是 用 p 个 处 理 器 所 完成 的 总 工作 量 。 并 行 系统 的 搜索 
开销 因子 (search overhead factor) 是 并 行 形式 所 做 工作 与 串 行 形式 完成 工作 量 的 比率 ， 即 
W, /W。 因 此 ， 并 行 系统 的 加 速 比 上 界 为 p x (W, /W)。 不 过 ， 由 于 在 并 行 处 理 中 还 存在 其 他 开 
销 ， 实 际 的 加 速 比 可 能 小 于 该 值 。 在 大 多 数 并 行 搜索 算法 中 ， 搜索 开销 因子 都 大 于 1。 在 某 些 
情况 下 ， 也 可 能 小 于 1， 导 致 超 线性 加 速 比 。 若 平均 搜索 开销 因子 小 于 1， 说 明 串 行 搜索 算 共 
并 不 是 求解 问题 的 最 快 算法 。 

为 使 叙述 和 分 析 简 化 ， 假 设 扩展 每 个 节点 所 花费 的 时 间 是 相同 的 ，W 和 W 分 别 为 串 行 和 
并 行 形式 扩展 的 节点 数目 。 若 每 次 扩展 花费 时 间 为 :. ， 那 么 串 行 运行 时 间 为 Ty = t.W。 在 本 章 
余下 的 部 分 ， 我 们 设 上 = 1。 这 样 ， 问 题 规模 W 与 串 行 运行 时 间 Ts 是 相同 的 。 


11.4 并 行 深度 优先 搜索 


我 们 现在 开始 讨论 并 行 深度 优先 搜索 ， 重 点 是 搜索 中 的 简单 回溯 。 深 度 优先 分 支 定 界 以 
及 IDA* 的 并 行 形式 类 似 于 本 节 讨论 的 并 行 形式 ， 它 们 将 在 11.4.6 和 11.4.7 节 中 讨论 。 

并 行 深度 优先 搜索 算法 中 的 关键 问题 是 处 理 器 之 间 的 搜索 空间 的 分 配 。 我 们 来 看 图 11-7 
所 示 的 树 。 注 意 ， 树 的 左 子 树 ( 以 节点 A 为 根 ) 能 和 树 的 右 子 树 ( 以 节点 B 为 根 ) 并 行 搜索 。 
通过 静态 分 配 树 中 的 一 个 节点 到 一 个 处 理 器 ， 可 能 扩展 根 在 那个 节点 的 整个 子 树 ， 且 不 需要 
和 男 一 个 处 理 器 通信 。 因 此 ， 看 起 来 这 种 静态 分 配 处 理 器 产生 一 个 好 的 并 行 搜索 算法 。 





a) b) 
图 11-7 搜索 树 的 非 结构 性 质 以 及 由 于 静态 划分 引起 的 负载 不 平衡 


现在 ， 假 如 我 们 试图 把 这 个 方法 应 用 到 图 11-7 所 示 的 树 上 ， 看 看 会 发 生 什么 情况 。 假 定 
有 两 个 处 理 器 。 根 节点 被 扩展 产生 两 个 节点 (A 和 B )， 每 一 个 节点 被 分 配 到 其 中 一 个 处 理 器 。 
现在 ， 每 一 个 处 理 器 各 自 搜索 以 这 个 节点 为 根 节 点 的 子 树 。 到 这 一 步 ， 静 态 节点 分 配 问 题 是 
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明显 的 。 搜 索 以 节点 A 为 根 节 点 的 子 树 的 处 理 器 明显 比 另 一 个 处 理 器 扩展 更 少 节 点 。 由 于 这 种 
负载 不 平衡 ， 一 个 处 理 喜 在 大 量 时 间 是 空闲 的 ， 使 效率 降低 。 使 用 更 多 数量 的 处 理 恬 会 加 重 
负载 不 平衡 。 考 虑 把 树 划 分 并 分 配 到 4 个 处 理 器 。 扩 展 节 点 A 和 B 产 生 节 点 C、D、E 和 F。 假 定 
将 每 一 个 市 点 分 配 到 一 个 处 理 器 。 现 在 , 搜索 以 节点 E 为 根 节 点 的 子 树 的 处 理 器 做 的 工作 最 多 ， 


搜索 以 市 后 C 和 DD 为 根 碳 扩 的 子 树 却 花 费 了 很 多 空 闪 时 间 。 由 于 以 不 同 的 节点 为 根 节点 时 ,， 搜 . 


索 空间 大 小 划分 的 变化 很 大 ， 非 结构 树 的 静态 划分 会 使 得 性 能 低下 。 而 且 ， 通常 因为 搜索 空 
则 动态 产生 ， 所 以 很 难 预先 估计 搜索 空间 的 大 小 。 因 此 ， 必 须 在 所 有 处 理 器 的 搜索 空间 之 间 
动态 平衡 负载 。 

在 动态 负载 平衡 (dynamic load balancing) 中 ， 当 一 个 处 理 器 完成 工作 时 ， 它 从 另 一 个 
己 有 工作 的 处 理 器 获得 新 的 工作 。 考 虚 图 11-7a 中 树 的 两 个 处 理 器 划分 。 假 定 节 点 A 和 B 被 分 配 
到 像 我 们 刚刚 描述 的 两 个 处 理 器 上 。 在 这 种 情况 下 ， 当 处 理 器 搜索 以 节点 A 为 根 节点 的 子 树 而 
超 负荷 时 ， 它 需要 另 一 个 处 理 器 帮助 工作 。 尽 管 动 态 分 配 工作 会 导致 因 任务 需求 和 任务 转移 
而 造成 的 通信 开销 ， 但 是 它 减 少 处 理 器 间 的 负载 不 平衡 。 本 节 介 绍 几 种 方案 动态 平衡 处 理 器 
间 的 负载 。 


基于 动态 负载 平衡 的 DFS 并 行 形式 如 下 。 每 个 处 理 器 对 搜索 空间 的 不 相交 部 分 执行 DFS。 


当 处 理 器 结束 自己 搜索 空间 的 搜索 时 ， 它 请 求 另外 处 理 器 没有 搜索 的 部 分 。 这 在 消息 传递 体 
系 结构 以 任务 请 求 和 消息 响应 的 形式 出 现 ， 在 共享 地 址 空间 计算 机 中 以 锁定 和 提取 任务 的 形 
式 出 现 。 无 论 何 时 ， 当 处 理 器 发 现 目标 节点 时 ， 所 有 的 处 理 器 终结 。 假 如 搜索 空间 是 有 限 的 ， 
并 且 任务 没有 解 ， 那 么 所 有 的 处 理 器 最 终 都 超 负荷 工作 ， 算 法 终止。 

由 于 每 个 处 理 器 以 深度 优先 搜索 状态 空间 ， 没 有 搜索 到 的 状态 空间 能 被 方便 地 作为 堆栈 
存储 。 每 个 处 理 器 维持 自己 的 本 地 堆栈 ， 并 在 栈 上 执行 DFS。 当 处 理 器 的 本 地 堆栈 为 空 时 ， 
它 请 求 (经 过 显 式 消息 或 通过 锁定 ) 另 一 个 处 理 器 堆栈 的 未 经 处 理 的 状态 。 起 初 ， 全 部 搜索 
空间 被 分 配 到 一 个 处 理 器 ， 另 外 的 处 理 器 分 配 的 是 空 的 搜索 空间 (也 就 是 空 的 堆栈 )。 当 处 理 
器 请 求 任务 时 ， 搜 索 空 间 被 分 配 到 这 些 处 理 器 上 。 我 们 把 发 送 任务 的 处 理 器 叫 作 施 主 (donor) 
处 理 器 ， 而 把 请 求 和 接收 任务 的 处 理 器 作为 接受 者 (recipient) 处 理 器 。 

如 图 11-8 所 示 ， 每 一 个 处 理 器 可 能 处 于 两 种 状态 之 一 : 活跃 状态 (也 就 是 有 任务 ) 或 空 
闲 状 态 (也 就 是 试图 获得 任务 )。 在 消息 传递 体系 结构 中 ， 空 闪 处 理 器 选择 施主 处 理 器 并 且 发 
出 任务 请 求 给 它 。 假 如 空闲 处 理 器 从 施主 处 理 器 接收 任务 (搜索 状态 空间 的 一 部 分 )， 那 么 它 
就 变 成 活跃 状态 。 假 如 它 接收 到 拒绝 消息 (由 于 施主 没有 任务 ) ， 它 会 选择 另 一 个 施主 并 且 发 
出 一 个 任务 请 求 到 那个 施主 。 这 个 过 程 将 重复 直到 处 理 器 得 到 任务 或 者 所 有 的 处 理 器 都 变 成 
空闲 状态 。 当 处 理 器 是 空闲 的 并 且 它 接收 到 任务 请 求 ， 那 么 这 个 处 理 器 返回 拒绝 消息 。 通 过 
锁定 另外 的 处 理 器 的 堆栈 、 检 查处 理 器 是 否 有 任务 ， 提 取 任 务 并 且 释 放 堆 栈 ， 能 在 共享 地 址 
空间 计算 机 上 实现 同样 的 过 程 。 

在 消息 传递 体系 结构 中 ， 在 活跃 状态 下 ， 一 个 处 理 器 执行 固定 最 的 任务 (扩展 固定 量 的 
点 )， 然后 检查 挂 起 的 任务 请 求 。 当 它 接 接收 到 任务 请 求 时 ， 处 理 器 把 它 的 任务 分 成 两 部 分 ， 
并 且 发 送 一 部 分 给 提出 请 求 的 处 理 器 。 当 处 理 器 处 理 完 自己 的 搜索 空间 时 ， 它 就 变 为 空间 的 。 
这 个 过 程 继续 直到 找到 了 解 或 所 有 的 搜索 空间 都 被 搜索 完 才 停止 。 如 果 找 到 了 解 ， 那 么 把 消 
电厂 播 到 所 有 的 处 理 器 以 停止 搜索 。 终 止 检测 算法 用 来 检查 是 否 所 有 的 处 理 器 都 没有 找到 解 
而 变 成 空闲 的 〈11.4.4 节 )， 
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处 理 器 空闲 
选择 一 个 处 理 器 并 服务 于 任何 
从 它 请 求 任务 挂 起 的 消息 
遭 到 揽 绝 


发 出 请 求 
图 11-8 动态 负载 平衡 的 一 般 方 案 





11.4.1 并 行 DFS 的 重要 参数 


并 行 DFS 的 两 个 特性 在 决定 其 性 能 上 起 着 关键 作用 。 第 一 个 是 在 处 理 器 上 分 配 任务 的 方 
法 ， 第 一 个 是 当 处 理 器 成 为 空闲 时 决定 施主 处 理 器 的 方案 。 


1. 任务 划分 策略 

当 任务 转移 时 ， 施 主 的 堆栈 被 分 成 两 个 堆栈 ， 其 中 一 个 发 送 给 接收 者 。 换 言 之 ， 一 些 节 
反 《 两 部 分 中 的 一 部 分 ) 从 施主 的 堆栈 中 除去 而 加 到 接收 者 的 堆栈 中 。 假 如 发 送 给 接收 者 的 
任务 太 小 ， 那 么 接收 者 很 快 就 会 变 空闲 ; 假如 太 多 ， 施 主 很 快 就 会 变 空 闲 。 理 想 情况 下 ， 堆 
栈 被 分 成 两 个 相等 的 部 分 。 这 样 ， 每 个 堆栈 代表 的 搜索 空间 大 小 是 一 样 的 。 这 种 划 法 称 为 半 
分 (half-split)。 可 是 ， 对 于 根 节点 在 未 扩展 部 分 的 堆栈 中 的 树 来 说 ， 很 难 估 计 这 种 树 的 大 小 、 
然而 ， 栈 底部 分 (也 就 是 接近 于 初始 的 节点 的 部 分 ) 趋向 于 有 更 大 的 以 它们 为 根 节 点 的 树 ， 
栈 顶 部 分 则 趋向 于 有 更 小 的 以 它们 为 根 节点 的 树 。 为 了 避免 发 送 很 小 的 任务 量 ， 当 节点 超过 
荣 一 特定 栈 深 度 时 ， 任 务 不 发 送 。 这 个 深度 被 称 之 为 截止 深度 (cutoff depth )。 

妨 外 一 些 划 分 搜索 空间 的 策略 是 1) 发 送 栈 底 附 近 的 节点 ，2) 发 送 截 止 深度 附近 的 节点 ， 
3) 发 送 栈 底 至 截止 深度 间 的 一 半 节 点 。 选 择 哪 种 划分 策略 依赖 于 搜索 空间 的 性 质 。 假 如 搜索 
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空间 是 一 致 和 的 ， 则 策略 1 和 策略 3 都 很 适用 。 假 如 搜索 空间 高 度 不 规则 ， 策 路 3 常 党 是 适用 的 。 
假如 能 使 用 强 启 发 式 〈( 排 序 后 继 者 使 目标 节点 能 移 到 状态 空间 树 的 左边 )， 那 么 策略 2 将 实现 
得 更 好 ， 因 为 它 力求 分 配 搜索 空间 中 可 能 包含 一 个 解 的 那些 部 分 。 假 如 栈 很 深 ， 那么 划分 成 
本 也 是 很 重要 的 。 对 于 这 种 栈 来 说 ， 策 略 1 比 策略 2 和 3 的 成 本 更 低 。 

图 11-9 显 示 ， 使 用 策略 3 将 图 11-5a 的 DFS 树 划分 成 两 棵 和子 树 。 注 意 ， 超 过 截止 深度 的 状 
态 没 有 划分 。 图 11-9 也 显示 相应 于 两 棵 子 树 的 栈 表示 。 图 中 使 用 的 栈 表 示 仅 存储 没有 探 询 的 
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图 11-9 图 11-5 中 DFS 树 的 划分 ， 两 棵 子 树 及 其 栈 表示 如 a) 和 b) 所 示 
2. 负载 平衡 方案 


这 一 部 分 讨论 三 种 动态 负载 平衡 方案 : 异步 循环 、 全 局 循环 和 随机 轮 询 。 每 种 方案 都 能 
对 消息 传递 和 共享 地 址 空间 计算 机 编码 。 
异步 循环 ”在 异步 循环 (ARR) 中 ， 每 个 处 理 器 有 一 个 独立 的 变量 targef。 无 论 何 时 处 理 器 
超人 负荷 工作 ， 它 使 用 target 变 量 作 为 施主 处 理 器 的 标记 并 且 试 图 从 它 那里 得 到 任务 ， target 变 
484| 量 的 值 在 每 次 请 求 的 任务 被 送出 时 增加 1 (以 p 为 模 )。 每 个 处 理 器 最 初 的 target 变 量 被 设置 成 
(label + 1) (以 p 为 模 )，label 是 本 地 处 理 器 的 标记 。 注 意 ， 任 务 请 求 被 每 个 处 理 器 独立 产生 。 
然而 ， 有 可 能 两 个 或 更 多 的 处 理 器 从 同一 个 施主 在 几乎 同一 时 间 请 求 任务 。 
全 局 循环 ”全 局 循环 (GRR) 使 用 一 个 称 为 farget 的 全 局 变量 。 这 个 变量 能 存储 在 共享 地 址 
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空间 计算 机 的 全 局 可 访问 空间 中 ,或 者 在 消息 传递 计算 机 的 指定 处 理 器 上 。 无 论 何 时 ， 当 处 
理 器 需要 任务 时 ， 它 请 求 并 且 接 收 target 值 ， 要 么 通过 锁定 、 读 取 或 者 在 共享 地 址 空间 计算 机 
解锁 实现 ， 要 么 通过 发 送 消 息 请 求 指定 的 处 理 器 (如 Po) 实现 。iarget 值 在 响应 下 一 个 请 求 之 
前 增加 1 (Lp 为 模 )。 接 收 者 处 理 器 然后 试图 从 那些 标记 值 为 iarget 的 施主 处 理 器 得 到 任务 。 
GRR 人 确保 相继 的 任务 请 求 被 均匀 地 分 配 到 所 有 的 处 理 器 上 。 这 种 方案 的 缺陷 是 访问 target 时 的 
争 用 。 

随机 轮 询 ”随机 轮 询 (RP) 是 最 简单 的 负载 平衡 方案 。 当 一 个 处 理 器 成 为 空间 时 ， 它 随机 
选择 一 个 施主 处 理 器 。 每 个 处 理 器 被 选 作 成 为 施主 的 概率 是 相等 的 ， 确 保 任 务 请 求 被 均匀 分 
配 。 


11.4.2 并 行 DFS 分 析 的 一 般 框架 


为 了 分 析 并 行 DFS 算 法 在 任意 负载 平衡 方案 中 的 性 能 和 可 扩展 性 ， 我 们 必须 计算 算法 的 
开销 也 。 任 何 负载 平衡 方案 中 的 开销 是 由 于 通信 (请 求 和 发 送 任务 )、 空 闲 时 间 (等 待 任务 )、 
终止 检测 以 及 争 用 共享 资源 而 产生 的 。 假 如 搜索 开销 因子 大 于 1 ( 即 假如 并 行 搜索 比 品行 搜索 
做 更 多 工作 )， 这 将 会 对 也 增加 另外 一 项 。 本 节 我 们 假设 搜索 开销 因子 为 1， 即 算法 的 串 行 和 
并 行 版 本 完成 同样 数量 的 计算 。 我 们 在 11.6.1 节 中 分 析 搜 索 开销 因子 大 于 1 的 情况 。 

对 于 11.4.1 闻 中 讨论 的 负载 平衡 方案 ， 空 闲 时 间 被 包含 在 由 任务 请 求 和 传送 引起 的 通信 开 
销 中 。 当 处 理 器 成 为 空 亲 ， 它 立即 选择 一 个 施主 处 理 器 并 且 对 它 发 送 一 个 任务 请 求 。 处 理 器 
剩余 空闲 的 总 时 间 等 于 请 求 到 达 施 主 处 理 器 加 上 接收 处 理 器 响应 到 达 的 时 间 。 在 那个 时 刻 ， 
空 闪 处 理 器 要 么 变 成 忙 的 ， 要 么 产生 另 一 个 任务 请 求 。 因 此 ， 花 在 通信 开销 上 的 时 间 包 括 处 
理 丝 空闲 的 时 间 。 由 于 通信 开销 是 并 行 DFS 上 的 主要 开销 ， 我 们 现在 考虑 一 种 计算 每 个 负载 


平衡 方案 通信 开销 的 方法 。 
要 想得到 DFS 负 载 平衡 方案 中 通信 开销 的 精确 表达 式 是 很 困难 的 ， 因 为 这 个 过 程 是 动态 
的 。 本 小 节 陈 述 一 种 方法 ， 用 来 求 得 这 个 开销 的 上 界 。 在 分 析 中 我 们 作 以 下 假设 : 、 


1) 一 旦 某 一 处 理 器 的 任务 大 小 超过 一 个 阔 值 s， 这 个 任务 就 被 划分 成 一 些 独 立 的 部 分 。 

2) 有 一 个 合理 的 任务 划分 机 制 。 假 定 一 个 处 理 器 上 的 任务 w 被 分 成 两 部 分 : V w 和 (1- 
Ww， 且 0< y< 1。 这 时 存在 一 个 任意 小 的 常量 a(0 < a< 0.5), 使 得 pw > aw 和 (1-WDw > aw。 
我 们 把 这 样 一 种 划分 机 制 称 为 a~- 划 分 。 常 量 a 对 任务 划分 引起 的 不 平衡 负载 设置 一 个 下 界 : mw 
的 两 部 分 划分 至 少 有 aw 的 任务 量 。 

大 多 深度 优先 搜索 算法 满足 以 上 第 一 个 假设 。11.4.1 节 中 描述 的 第 三 种 任务 划分 策略 ， 即 
使 对 高 度 不 规则 搜索 空间 也 能 导致 平均 a- 划 分 。 

在 被 分 析 的 负载 平衡 方案 中 ， 总 的 任务 在 处 理 器 之 间 动 态 划分 。 处 理 器 独立 地 工作 在 搜 
索 空 间 的 不 相连 部 分 。 空 闪 处 理 器 轮 询 请 求 任务 。 当 它 找到 一 个 有 任务 的 施主 处 理 器 时 ， 这 
个 任务 就 被 划分 ， 并 且 其 中 一 部 分 任务 被 传送 到 空 闪 处理 器 。 若 施主 有 任务 w; ， 并 且 它 被 划 
分 成 大 小 为 w 和 ww 的 两 部 分 ， 那么 假设 条 件 2 说 明 存 在 常量 w， 使 得 w > ow; 和 w > oawi 。 注 意 
a 小 于 0.5。 因 此 ， 在 任务 传送 之 后 ， 所 有 处 理 器 (施主 处 理 器 和 接收 者 处 理 器 ) 的 任务 量 多 
于 (1 -co)w;。 假 设 有 任务 的 p 部 分 ， 其 大 小 分 别 为 wo, wi, .…. ,wi。 假定 最 大 部 分 的 任务 量 为 w。 
如 来 所 有 这 些 任务 部 分 是 分 隔 开 的 ， 划 分 策略 就 产生 2p 个 任务 ， 其 大 小 分 别 是 Wowo，YWiwi，… 
Up (1 一 yo)wo, (yw (1 一 py-i)wp-1。 在 它们 之 中 ， 最 大 部 分 任务 的 大 小 是 (1-a)w。 
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假设 有 p 个 处 理 器 ,每 个 处 理 器 分 配 一 个 任务 。 如 果 每 个 处 理 器 至 少 接收 到 一 次 任务 请 求 ， 
那么 这 p 块 任务 的 每 一 部 分 都 被 至 少 划分 一 次 。 这 样 ， 任 一 处 理 器 上 的 最 大 任务 量 至 多 减少 
(1-@) 倍 。 我 们 定义 这 样 一 个 V(p)， 在 每 Y(p) 次 任务 请 求 后 ， 每 一 个 处 理 器 都 至 少 接收 到 一 
任务 请 求 。 注 意 V(p)>p。 一 般 说 来 ，V(p) 取 决 于 负载 平衡 算法 。 开始 时 ， 处 理 器 Po 有 W 单 位 
的 任务 ， 而 所 有 其 他 的 处 理 器 都 没有 任务 。 在 V(p) 次 请 求 后 ， 任 一 个 处 理 器 上 的 留 下 最 大 任 
务 量 减少 到 不 足 (L-oJW; 在 2V(p) 次 请 求 后 ， 任 一 个 处 理 器 上 留 下 的 最 大 任务 量 少 于 (1 -a)?W。 
类 似 地 , 在 (logvw-a(W/s)YP) 次 请 求 后 , 任 一 个 处 理 器 上 留 下 的 最 大 任务 量 低 于 闪 值 e。 因 此 ， 
总 的 任务 请 求 量 是 O(V(p)logW)。 

通信 开销 由 任务 请 求 和 任务 传送 引起 。 总 的 任务 传送 量 不 能 超过 总 的 任务 请 求 量 。 所 以 ， 


任务 请 求 的 总 数 ， 加 上 一 个 任务 请 求 和 相应 任务 传送 的 总 通信 成 本 的 权 值 ， 给 出 总 通信 开销 


的 一 个 上 界 。 为 简单 起 见 ， 我 们 假设 与 任务 请 求 及 任务 传送 有 关 的 数据 是 常量 。 一 般 说 来 ， 
栈 的 大 小 应 与 搜索 空间 的 大 小 按 对 数 关系 增长 。 对 于 这 种 情况 ， 我 们 可 作 类 似 的 分 析 (习题 
11.3 )。 

如 人 tcomm 是 一 个 任务 通信 和 记 需 的 时 间 ， 那 么 通信 开销 7 为 


7 一 lcomm V(p) log W ( ] 1-2 ) 


相应 的 效率 E 如 下 : 
i 
1+T,/wW 
1 
11+ (tommV(p)log W)/W 


我 们 曾 在 5.4.2 节 指出 ， 通 过 平衡 问题 大 小 W 和 开销 函数 7, 能 推导 等 效率 函数 。 如 公式 
(11-2) 所 示 ，T 取决 于 两 个 值 tow 和 Vlp)。tcomm 的 值 由 底层 体系 结构 决定 ， 而 函数 V(p) 由 人 负载 
平衡 方案 决定 。 在 下 面 几 小 节 中 ， 我 们 将 对 11.4.1 节 中 介绍 的 每 种 方案 导出 V(p) 的 值 。 然 后 使 
用 这 些 V(p) 值 ， 导 出 在 消息 传递 和 共享 地 址 空间 计算 机 上 各 种 方案 的 可 扩展 性 。 


各 种 负载 平衡 方案 上 的 V(p) 值 的 计算 
”公式 (11-2) 表 明 ，V(p) 在 总 通信 开销 中 是 一 个 重要 的 部 分 。 在 此 我 们 将 计算 不 同 负载 平衡 
方案 的 Vp) 值 。 

异步 循环 当 所 有 的 处 理 器 在 同一 时 间 向 同一 个 处 理 器 发 出 任务 请 求 时 ，ARR 的 Vp) 值 出 
现 最 坏 情况 。 对 这 种 情况 说 明 如 下 。 假 设 所 有 的 任务 都 在 处 理 器 p-1 上， 并 且 所 有 其 他 的 处 理 
絮 (0 到 p-2) 的 本 地 计数 器 都 指向 处 理 器 0。 在 这 种 情况 下 ， 当 处 理 器 p-1 接 收 到 一 个 任务 请 
求 时 ， 一 个 处 理 器 必须 发 出 p-1 个 请 求 ， 而 余下 的 p~2 个 处 理 器 中 每 个 产生 多 至 p -2 个 任务 请 
求 《 对 除了 处 理 器 p-1 和 它 自身 外 的 所 有 处 理 器 )。 这 样 ， Vp) 有 一 个 (p- 1) + -2)p-2) 上 界 。 
也 就 是 说 ，V(p) = O(P?)。 注 意 ，Yp) 的 实际 值 在 和 zz 之 间 。 

全 局 循环 ”在 全 局 循环 中 ， 所 有 的 处 理 器 按 顺 序 接收 请 求 。 在 2 个 请 求 之 后 ， 每 个 处 理 器 
接收 到 -一 个 请 求 。 因 此 ，Wp) 等 于 p。 

随机 轮 询 ”对 于 随机 轮 询 ， 最 坏 情 况 是 VCp) 的 值 没有 界限 ， 因此 、 我 们 计算 V(p) 的 平均 
值 。 

孝 谍 p 个 盒子 的 一 个 集合 。 在 每 次 试验 中 ， 随 机 选 一 个 盒子 并 做 上 标记 。 我 们 对 标记 所 有 
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盒子 所 需 试验 次 数 的 平均 值 感 兴趣 。 在 我 们 的 算法 中 ， 每 次 试验 对 应 于 一 个 处 理 器 向 另外 一 
个 被 随机 选 定 的 处 理 器 发 送 任务 请 求 。 

我 们 用 F(i, p) 代 表 p 个 盒子 中 i 个 为 已 作 标记 而 另外 的 p-i 个 盒子 未 作 标 记 的 状态 。 由 于 下 
一 个 被 标记 的 盒子 是 随机 的 ， 选 出 盒子 已 有 标记 的 概率 是 Wp， 没 有 标记 的 概率 是 (p-i)/p。 因 
此 ， 系 统 停留 在 F(i, p) 状 态 的 概率 为 jp， 而 转移 到 F(i +1, p) 状 态 的 概率 为 p-ip。 我 们 用 f (i 
p) 表 示 从 F(i,p) 状 态 转移 到 Flp,p) 状 态 所 需 的 平均 试验 次 数 。 这 样 ，V(p) = (0,p)。 我 们 有 


fli,p) = 3+tFGP) + +f +1,p) 
上 一 fm = 1+2 fi+1,p) 
p p 
fp) = -二 +FGC+HELD 
p—! 
因此 
p—! 
f(0,p) = px 》 一 一 
iZ0 尸 一 :? 
“各 i 
= pxH, 


其 中 H, 是 一 个 调和 数 。 这 表明 当 p 很 大 时 ，H, = 1.69lnp (ln P 代 表 p 的 自然 对 数 )。 因 此 ， 
Vp) = OC log p). 


11.4.3 负载 平衡 方案 分 析 


本 市 分 析 在 11.4.1 节 中 引入 的 负载 平衡 方案 的 性 能 。 对 于 每 种 情况 ， 我 们 假设 任务 以 固定 
大 小 的 消息 传送 (放宽 这 种 假定 的 影响 在 习题 11.3 中 考查 )。 
回想 一 下 ， 成 本 模型 中 m 字 的 消息 通信 成 本 的 简化 形式 是 1.omm = 上 + tum。 由 于 假设 消息 大 
小 m 为 一 个 常量 ， 如 果 在 互连网 络 上 没有 拥塞 ， 则 icomnw = O(1)。 通 信 开 销 T,，( 公式 (11-2)) 简 
化 为 
T, = O(V(p) log W) (11-3) 
我 们 对 每 一 种 负载 平衡 方案 用 大 小 为 W 的 问题 平衡 开销 ， 推 导 由 于 通信 产生 的 等 效率 函 
数 。 
异步 循环 ”如 11.4.2 节 的 讨论 ， 异 步 循 环 的 V(p) 为 O(p?)。 代 入 公式 (11-3)， 得 到 的 通信 开 
销 T, 为 Op'logW)。 对 大 小 为 W 的 问题 平衡 通信 开销 ， 可 得 
W = O(p’ log W) 
把 W 代 入 相同 方程 的 右 端 且 简 化 得 


W O(p’ log(p’ log W)) 


O(p’ log p+ p* log log W) 
重 对 数 项 (log logWW) 浙 近 地 小 于 第 一 项 ， 只 要 p 的 增长 速度 不 惕 于 logW， 因 此 可 以 被 忽略 ， 
所 以 ， 这 种 方案 的 等 效率 函数 为 O(p?log p)。 


| 
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全 局 循环 ”从 11.4.2 节 可 知 ， 全 局 循环 的 WPp) = OO)。 代 到 公式 (11-3) 中 ， 产 生 OU logW) 
的 T, 通信 开销 ， 像 异步 循环 一 样 简化 ， 可 以 得 到 这 种 方案 由 于 通信 开销 引起 的 等 效率 国 数 为 
Op log p). 

然而 ， 在 这 种 方案 中 ， 全 局 变量 target 被 重复 访问 ， 可 能 会 ?| 起 争 用 。 这 个 变量 被 访问 的 
次 数 等 于 任务 请 求 的 总 数 O(p logW)。 如 果 处 理 器 被 有 效 地 利用 ， 总 执行 时 间 为 OC(W/p)。 假 设 
在 p 个 处 理 器 上 求解 大 小 为 W 问 题 时 没有 对 target 的 争 用 ， 那 么 ，W/p 大 于 共享 变量 被 访问 的 时 
间 。 随 着 处 理 器 数目 的 增加 ， 执 行 时 间 (W/p) 下 降 ， 但 是 共享 变量 被 访问 的 次 数 增加 。 这 样 ， 
就 存在 一 个 交叉 点 ， 当 超过 这 个 点 时 ， 共 享 变 量 就 成 为 一 个 瓶颈 ， 阻 碍 进一步 减少 运行 时 间 。 
道 过 以 这 样 一 种 速度 增加 W， 使 W/p 与 O(p log 凤 之 比 保持 为 常量 ， 就 可 能 消除 这 个 瓶颈 。 这 
要 求 W 关 于 p 的 增长 按 如 下 关系 : 


W 
— 二 O(plog Ww 
p (p 08 ) (11-4) 


我 们 通过 p 表 示 W 可 简化 公式 (11-4)。 这 样 得 出 一 个 等 效 项 O(p’log p)。 

由 于 来 源 于 和 争 用 的 等 效率 函数 渐 近 支配 来 源 于 通信 的 等 效率 函数 ， 总 的 等 效率 函数 由 
0O(p"log p) 给 出 。 注 意 ， 尽 管 很 难 估计 由 于 对 共享 变量 争 用 的 实际 开销 ， 但 我 们 可 以 确定 最 后 
的 等 效率 函数 。 z 

随机 罗 询 ”在 11.42 节 看 到 对 随机 轮 询 的 V(p) = O(p log p)。 把 它 代入 公式 (11-3)， 得 到 通 
信 开 和 销 T, 为 Olp iog p logW)。 使 7, 与 问题 大 小 W 相 等 并 且 像 前 面 一 样 简化 ， 可 推导 出 由 于 通信 
开销 导致 的 等 效率 函数 是 O(p log’p)。 由 于 在 随机 轮 询 中 没有 争 用 ， 这 个 函数 也 是 总 等 效率 函 
数 。 


11.4.4 终止 检测 


并 行 DFS 中 ， 到 目前 为 止 还 没有 讲述 终止 检测 。 在 这 节 中 ， 我 们 将 讲述 两 种 终止 检测 方 
案 ， 这 两 种 方案 能 用 在 11.4.1 节 讨论 的 负载 平衡 算法 中 。 


1. Dijkstra 的 令 牌 终 站 检测 算法 

考虑 这 样 一 种 简单 情况 : 某 个 处 理 器 一 旦 变 为 空 阅 ， 就 再 也 不 会 得 到 任务 。 假 想 p 个 处 理 
器 用 一 种 逻辑 环 连 接 (注意 ， 罗 辑 环 结构 很 容易 映射 到 物理 拓扑 结构 上 )。 处 理 器 户 在 变 为 空 
闲 时 初始 化 一 个 令 牌 ， 这 个 令 牌 被 送 给 环 中 的 下 一 个 处 理 器 Pi,。 在 计算 的 任何 阶段 ， 假 如 一 
个 处 理 器 接收 到 令 牌 ， 那 么 令 牌 被 保留 在 这 个 处 理 器 上 ， 直 到 分 配 到 这 个 处 理 器 上 的 计算 完 
成 为 止 。 一 旦 计算 完成 ， 令 牌 又 被 传 到 环 中 的 下 一 个 处 理 器 。 假 如 处 理 器 已 经 空间 ， 那 么 令 
牌 也 被 传 到 下 一 个 处 理 器 。 注 意 ， 在 任意 时 刻 ， 令 牌 被 传 到 P; 时 ， 处 理 器 Po, ..., Pi! 已 经 完成 
它们 的 计算 任务 。 处 理 器 P,_, 传 递 它 的 令 牌 给 处 理 器 Po 当 P, 接 收 到 这 个 令 牌 时 ， 它 知道 所 有 
的 处 理 器 已 完成 自己 的 计算 任务 ， 因 此 算法 可 以 终止。 

这 种 简单 方案 不 能 应 用 于 本 章 描 述 的 搜索 算法 ， 因 为 当 一 个 处 理 器 变 为 空 闪 时 ， 它 也 许 
从 另外 的 处 理 器 接收 到 更 多 的 任务 。 这 样 ， 必 须 修改 这 个 令 牌 终止 检测 方案 。 

在 修改 方案 中 ， 所 有 处 理 器 也 组 织 成 一 个 环 。 任 一 处 理 器 都 可 处 于 两 种 状态 之 _-: 黑色 
和 白色 。 最初， 所 有 处 理 器 处 于 白色 状态 。 正 如 前 面 一 样 ， 令 牌 按 P,，P1，..…，, P_， 忆 的 顺序 
传递 。 如 果 系统 中 任务 传递 仅仅 允许 从 处 理 器 P; 到 P) (i < j)， 那 么 简单 的 终止 方案 依然 适用 。 
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然而 ， 若 处 理 器 P; 发送 任 务 给 处 理 器 P; ， 那 么 令 牌 必须 叉 沿 环 反 向 传递 。 在 这 种 情况 下 ， 处 
理 器 Pj 被 标记 为 白色 ， 因 为 它 使 得 令 牌 再 次 沿 环 传递 。 处 理 器 Po 必须 通过 查看 自己 收 到 的 令 
牌 ， 决 定 令 牌 是 否 又 必须 沿 着 环 传递 。 因 此 ， 令 牌 本 身 必 须 有 两 种 类 型 : 一 种 是 白色 (或 有 
效 ) 令 牌 ， 当 处 理 器 Po 接收 到 这 个 令 牌 时 ， 隐 含 算 法 终止 ; 另 一 种 类 型 是 黑色 (或 无 效 ) 令 
牌 ， 当 处 理 兽 Po 接收 到 这 个 令 牌 时 ， 它 隐 含 令 牌 必须 再 治 环 反 向 传递 。 终 止 算法 修改 后 ， 其 
工作 方式 如 下 : 
1) 当 处 理 器 Po 变 空 间 时 ， 它 通过 使 自己 变 成 白色 并 发 送 一 个 白色 令 牌 给 P|， 开 始终 止 检 
测 。 

2) 如 果 处 理 器 Pj 发 送 任 务 给 处 理 器 P; ， 且 j > i， 那 么 处 理 器 P; 变 成 黑色 。 

3 ) 若 处 理 器 Pi 已 经 有 令 牌 并 且 P; 是 空间 的 ， 那 么 它 传递 令 牌 给 Pi ,1。 假 如 Pi 是 黑色 ， 那 
么 令 牌 在 送 到 Pi,, 之 前 设置 成 黑色 。 假 如 Pi 是 白色 ， 那 么 令 牌 传递 不 改变 颜色 。 

4) Pi 传递 令 牌 给 Pi 后 ，P; 本 身 变 为 白色 。 z 

当 处 理 颖 Po 收 到 一 个 白色 令 牌 并 且 它 自己 为 空 闪 时 ， 算 法 终止 。 通 过 考 虚 处理 器 在 自己 
已 经 被 令 牌 标记 后 接收 任务 的 可 能 性 ， 算 法 能 正确 地 检测 终止 。 

这 个 算法 的 运行 时 间 量 级 是 带 一 个 小 常量 的 O(p)。 当 处 理 器 数目 较 小 时 ， 这 种 方案 对 于 
总 体 性 能 而 言 影响 不 大 。 当 处 理 器 数目 较 大 时 ， 这 个 算法 可 以 使 负载 平衡 方案 的 总 等 效率 函 
数 至 少 为 O(D2) (习题 11.4 ) 。 


2. 基于 树 的 终止 检测 

基于 树 的 终止 检测 和 单个 任务 块 的 权 有 关 。 开 始 时 ， 处 理 器 Po 拥有 所 有 任务 ， 并 且 它 的 
公 为 1。 当 它 的 任务 被 划分 并 且 发 送 到 另 一 个 处 理 器 之 后 ， 它 保留 一 半 的 权 ， 并 且 发 送 一 半 权 
给 接收 任务 的 处 理 器 。 假 如 已 是 接收 者 处 理 器 并 且 w; 是 它 的 权 ， 那 么 在 第 一 个 任务 被 传送 之 
后 ，wo 和 wi 都 是 0.5。 每 次 处 理 器 上 的 任务 被 划分 后 ， 权 都 减 半 。 当 某 个 处 理 器 完成 它 的 计算 
时 ， 它 返回 权 给 那个 发 送 任务 给 它 的 处 理 器 。 当 处 理 器 P。 上 的 权 wo 变 成 1 并 且 处 理 器 Po 完成 它 
的 任务 时 ， 发 出 终止 信号 。 
例 11.7 基于 树 的 终止 检测 


图 11-10 所 示 是 4 个 处 理 器 的 基于 树 的 终止 检测 。 开 始 时 ， 处 理 器 Po 拥有 全 部 的 权 (wo = 1)， 
并 且 其 他 处 理 器 的 权 都 是 0(w = w=ws=0)。 在 第 1 步 ， 处 理 器 Po 将 其 任务 划分 ， 并 且 分 一 部 
分 任务 给 处 理 器 Pi 之 后 ，wo 和 wi 都 变 成 0.5，w; 和 w; 依 然 是 0。 第 2 步 ， 处 理 器 P 分 自己 的 一 半 
任务 给 处 理 器 P,， 在 这 次 任务 传送 之 后 ， 权 wl 和 w, 都 变 成 0.25， 而 权 wo 和 w; 保 持 不 变 。 在 第 3 
步 ， 处 理 器 P; 从 处 理 器 已 得 到 任务 并 且 所 有 处 理 器 的 权 都 变 成 0.25。 在 第 4 步 ， 处 理 器 已 完成 
任务 并 且 把 它 的 权 发 送 给 处 理 器 P ,。P ,的 权 变 成 0.5。 当 所 有 处 理 器 都 完成 它们 的 任务 时 ， 权 
沿 树 向 上 传递 直到 处 理 器 Po 上 的 权 wo 变 成 1。 这 时 ， 所 有 任务 完成 且 发 出 终止 信号 。 加 


这 个 终止 检测 算法 有 一 个 大 的 缺陷 。 由 于 计算 机 的 有 限 精 度 ， 权 的 递归 减 半 可 能 使 得 权 
太 小 以 至 它 变 成 0。 在 这 种 情况 下 ， 权 将 丢失 而 永远 不 会 发 出 终止 信号 。 使 用 权 的 倒数 ， 可 以 
减少 这 种 情况 的 发 生 。 如 果 处 理 器 P; 有 权 w; ， 不 用 权 本 身 而 用 它 的 倒数 1/w; 。 算 法 的 细节 在 
习题 11.5 中 考虑 。 

基于 树 的 终止 检测 算法 并 没有 改变 我 们 考虑 过 的 任何 搜索 方案 的 总 等 效率 函数 。 这 是 由 
于 这 样 一 个 事实 ， 恰 好 有 两 次 权 传送 与 每 次 任务 传送 相关 。 因 此 ， 算 法 给 通信 开销 增加 了 一 
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个 常数 因子 。 用 渐 近 的 说 法 ， 这 种 改变 并 没有 改变 等 效率 消 数 。 


Ww0 三 0.5 


wi = 0.25 





第 1 步 第 2 步 第 3 步 
wo = 0.25 wo = 0.5 | OO wo=1.0 
wl] 一 0.5 w3 = 0.25 wi = 0.5 
第 4 步 第 5 步 第 6 步 


图 11-10 基于 树 的 终 球 检 栅 。 第 1-6 步 说 明 在 每 次 任务 
被 传送 之 后 ， 不 同 处 理 器 上 权 的 变化 


11.4.5 试验 结果 


在 这 节 中 ， 我 们 对 多 种 并 行 DFS 算 法 说 明 可 扩展 性 分 析 的 有 效 性 。 这 种 可 满足 性 问题 测 
试 布尔 公式 的 有 效 性 。 这 样 的 问题 出 现在 如 VLSI 设计 和 定理 证 明 等 领域 中 。 可 满足 性 问题 
(satisfiability problem) 可 以 表述 为 : 给 定 一 个 布尔 公式 ， 包 括 多 个 合 取 范 式 形 式 的 二 进 制 变 
量 ， 确 定 它 是 否 是 不 可 满足 的 。 一 个 布尔 公式 如 果 不 存在 赋 真 值 的 变量 使 其 为 真 ， 那 么 这 个 
布尔 公式 是 不 可 满足 的 。 

Davis-Putnam 算 法 是 求解 这 个 问题 的 快速 而 又 有 效 的 算 靶 。 它 通过 给 一 棵 二 又 树 完 成 深 
度 优先 算法 实现 ， 而 这 棵 二 叉 树 由 赋 给 布尔 表达 式 的 文字 的 真 假 值 组 成 。 令 "是 文字 的 个 数 ， 
那么 树 的 深度 最 大 不 能 超过 n。 如 果 在 文字 赋值 之 后 表达 式 变 为 假 值 ， 那 么 算法 回溯 .假如 深 
度 优先 搜索 没有 找到 一 种 对 变量 的 赋值 能 使 表达 式 为 真 ， 那 么 这 个 表示 式 是 不 可 满足 的 。 

即使 表达 式 是 不 可 满足 的 ， 实 际 上 也 只 要 搜索 2" 种 可 能 的 小 子 集 组 合 。 例 如 ， 对 于 一 个 
有 65 个 变量 的 问题 ， 总 的 可 能 组 合 是 25 (大 约 3.7 x 10”)， 但 是 在 具体 问题 实例 中 ， 大 约 只 有 
10 个 节 反 被 实际 搜索 。 这 种 问题 的 搜索 树 以 一 种 高 度 不 一 致 的 方式 被 修剪 ， 并 且 任 何 想 把 树 
静态 地 划分 的 努力 都 会 导致 极度 的 负载 不 平衡 。 

可 满足 性 问题 用 来 测试 多 达 1024 个 处 理 器 的 消息 传递 并 行 计算 机 的 负载 平衡 方案 。 我 们 
实现 了 Davis-Putnam 算 法 ， 并 且 用 到 11.4.1 节 讨论 的 负载 平衡 算法 。 这 个 程序 运行 在 几 个 不 可 
满足 的 公式 上 。 通 过 选择 不 可 满足 的 实例 ， 我 们 确保 并 行 形式 展开 的 节点 数 和 串 行 形式 展开 
的 节点 数 一 样 ; 任何 加 速 比 减少 都 仅 由 负载 平衡 的 开销 引起 。 

在 万 案 测 试 的 实例 问题 中 ， 树 的 总 节点 数 大 约 在 105 到 107 之 闻 。 树 的 深度 ( 它 等 于 公式 中 
的 变量 个 数 ) 在 35 到 65 之 间 。 相 对 于 同样 问题 最 佳 串 行 执行 时 间 的 加 速 比 也 被 计算 出 来 。 通 
过 给 定数 目的 处 理 器 并 行 求解 所 有 问题 的 累计 时 间 与 对 应 的 串 行 求解 累计 时 间 之 比 ， 计 算出 





了 平均 加 速 比 。 对 于 给 定数 月 的 处 理 器 ， 加 速 比 和 效率 在 很 大 程度 上 由 树 的 大 小 决定 ( 树 的 ， 


大 小 和 串 行 运行 时 间 大 致 成 正比 )。 这 样 ， 对 于 大 小 相似 的 问题 ， 其 加 速 比 很 相似 。 

我 们 在 5 个 问题 实例 的 样本 集 上 测试 了 所 有 方案 。 表 11-1 表 示 通 过 不 同 负 载 平衡 技术 的 并 
行 算法 得 到 的 平均 加 速 比 。 图 11-11 为 得 到 的 加 速 比 曲 线 。 表 11-2 表 示 RP (随机 轮 询 ) 和 GRR 
(全 局 循环) 获得 的 对 一 个 问题 例 程 的 任务 请 求 总 数 。 图 11-12 表 示 相 应 的 图 ， 并 比较 RP 和 
GRR 的 期 望 值 分 别 为 Co log*p) 和 Op log p) 时 产生 的 消息 数目 。 


表 11-1 不 同 的 负载 平衡 方案 的 平均 加 速 比 


处 理 器 数目 
方 案 8 16 32 64 128 256 312 1024 
ARR 7.506 14.936 29.664 57.721 103.738 178.92 239.372 284.425 
GRR 7.384 14.734 29.291 37.729 110.734 184.828 133.05 1] 
RP 7.324 1S.000 29.814 58.857 114.645 218.255 397.585 660.582 





图 11-11 使 用 ARR (异步 循环 )、GRR (全 局 循环 ) 和 
RP (随机 轮 询 ) 的 并 行 负载 平衡 方案 的 加 速 比 


表 11-2 GRR (全 局 循环 ) 和 RP (随机 轮 询 ) 产生 的 任务 请 求 数 





处 理 啤 数目 
方 案 
16 32 64 128 256 512 1024 
GRR 260 661 1572 3445 8557 17088 41382 72874 
RP 562 2013 5106 15060 46056 136457 382695 885872 


GRR 的 等 效率 函数 是 Ol(p*log p)， 它 比 RP 的 等 效率 函数 差 很 多 。 这 一 点 反映 在 实现 的 性 能 
中 。 从 图 11-11 可 知 ，GRR 的 性 能 在 处 理 器 的 数目 超过 256 个 时 迅速 变 差 。 在 p > 25$6 时 ， 仅 仅 
在 非常 大 的 问题 实例 中 才能 获得 好 的 加 速 比 。 试验 结果 同时 表明 ARR 的 可 扩展 性 比 GRR 好 ， 
但 十 远 没 有 RP 的 可 扩展 性 好 。 尽 管 ARR 和 GRR 的 等 效率 函数 都 是 O(p7log p)， 但 是 ARR 的 性 
能 胜 过 GRR。 其 原因 是 ，P?log p 是 一 个 上 界 ， 是 使 用 VCp) = OC(p?) 推 出 的 。 这 个 Vip) 值 对 ARR 
只 是 一 个 宽松 的 上 界 。 相 反 ，VYp) 值 对 GRR 是 一 个 紧密 的 上 界 。 
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图 11-12 RP 《随机 轮 询 ) 和 GRR (全 局 循环 ) 产生 的 任务 请 求 数目 
以 及 它们 的 期 望 值 (分 别 是 O(p log2) 和 Op log p)) 


为 了 确定 各 种 方案 等 效率 函数 的 精确 性 ， 我 们 用 实验 方法 检验 RP 方法 (选择 这 种 方法 是 
随意 的 ) 的 等 效 曲线 ， 我 们 选取 了 30 个 大 小 从 105 个 节点 到 10’ 个 节点 的 不 同 问题 实例 ， 在 不 同 
数目 的 处 理 器 上 运行 ， 并 计算 出 每 个 问题 实例 的 加 速 比 和 效率 。 对 不 同 问题 规模 和 不 同 数目 
的 处 理 器 而 言 ， 具 有 同样 效率 的 数据 点 被 分 成 组 。 当 没有 相同 效率 点 时 ， 通 过 计算 效率 为 所 
需 值 的 相 邻 点 的 平均 值 ， 计 算出 问题 的 规模 。 这 些 数据 可 以 从 图 11-13 中 看 到 。 图 中 给 出 效率 
分 别 为 0.9、0.85、0.74 和 0.64 时 间 题 规模 W 与 p log”p 的 关系 曲线 。 我 们 期 望 对 应 于 同样 效率 的 
氮 共 线 。 从 图 11-13 看 出 这 些 点 是 共 线 的 ， 表 明 RP 的 实验 等 效率 函数 接近 理论 上 导出 的 等 效率 
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图 11-13 RP (随机 轮 询 ) 对 于 不 同 效率 的 实验 等 效率 曲线 
11.4.6 深度 优先 分 支 定 界 搜索 的 并 行 形式 


深度 优先 分 支 定 界 搜索 的 并 行 形式 (DFBB) 和 DFS 的 并 行 形式 相似 。 对 前 面 讲述 的 DFS 方 
法 作 小 的 修改 , 就 可 以 应 用 到 DFBB 上 , 这 个 修改 就 是 在 所 有 处 理 器 上 都 保存 当前 最 佳 解 路 径 。 





对 许多 问题 而 言 ， 当 前 最 佳 解 路 径 可 用 一 个 小 数据 结构 表示 。 对 于 共享 地 址 计算 机 ， 这 个 数 “|495] 
据 结构 可 以 存储 在 一 个 全 局 可 访问 内 存 中 。 处 理 器 每 次 找到 一 个 解 ， 就 把 它 的 成 本 与 当前 最 

佳 解 路 径 的 成 本 进行 比较 。 如 果 它 的 成 本 更 低 ， 那 么 它 将 取代 当前 最 佳 解 路 径 而 成 为 新 的 当 

前 最 佳 解 路 径 。 在 消息 传递 计算 机 上 ， 每 个 处 理 器 都 保持 它 知道 的 当前 最 佳 解 路 径 。 无 论 何 

时 ， 当 有 处 理 恬 发 现 比 当前 最 佳 解 路 径 成 本 更 低 的 解 路 径 ， 就 把 这 个 新 的 解 路 径 成 本 广播 给 

所 有 其 他 的 处 理 器 ， 然 后 这 些 处 理 器 更 新 ( 如果 需 要 ) 它们 的 当前 最 佳 解 路 径 成 本 。 由 于 只 

通过 单个 数值 来 获得 解 的 成 本 ， 并 且 经 常 找 不 到 解 路 径 ， 所 以 由 这 个 成 本 值 通 信 所 导致 的 开 

销 非 常 小 。 注 意 ， 假 如 某 个 处 理 器 上 的 当前 最 佳 解 路 径 比 全 局 最 佳 解 路 径 差 ， 那 么 受到 影响 

的 就 是 搜索 效率 而 非 正 确 性 。 因 为 DFBB 的 低 通信 开销 ， 并 行 DFBB 的 性 能 和 可 扩展 性 与 前 面 

所 讨论 的 并 行 DFS 的 相似 。 


11.4.7 JDA* 的 并 行 形式 


由 于 IDA* 以 重复 方式 探查 搜索 树 不 断 地 增加 成 本 界限 ， 自 然 会 想到 一 种 并 行 形式 ， 就 是 
以 单独 的 处 理 器 独立 地 探查 搜索 空间 单独 的 部 分 。 处 理 器 可 能 用 不 同 的 成 本 界限 探查 树 。 这 
种 方法 有 下 面 两 个 缺陷 : 

1) 对 特定 的 处 理 器 而 言 ， 如 何 选 一 个 阔 值 是 不 明确 的 。 若 为 某 个 处 理 器 选择 的 阀 值 正好 
比 全 局 最 小 阐 值 更 高 ， 那 么 这 个 处 理 器 将 探查 树 中 没有 被 囊 行 IDA* 探 查 的 部 分 。 

2) 这 种 方法 可 能 不 能 找到 最 优 解 。 某 一 个 处 理 器 在 某 次 迭代 时 找到 的 解 ， 不 能 证 明 就 是 
最 优 解 ， 直 到 所 有 其 他 的 处 理 器 已 穷尽 了 比 找到 解 的 成 本 低 的 那些 阀 值 相关 的 搜索 空间 。 

通过 用 并 行 DFS (11.4 节 ) 执行 IDA* 的 每 次 迭代 是 一 种 更 有 效 的 方法 。 所 有 的 处 理 器 都 
使 用 同样 的 成 本 界限 ; 每 个 处 理 器 在 本 地 存储 这 个 界限 ， 并 且 在 自己 的 搜索 空间 中 执行 DFS。 
每 次 并 行 IDA* 和 迭代 后 ， 一 个 指定 的 处 理 器 决定 下 次 选 代 的 成 本 界限 ， 并 重新 开始 具有 新 界限 
的 并 行 DFS。 当 有 处 理 器 找到 一 个 目标 节点 并 通知 所 有 其 他 的 处 理 器 时 ， 搜 索 结 束 。 这 种 
IDA* 的 并 行 形式 的 性 能 和 可 扩展 性 与 并 行 DFS 算 法 的 性 能 和 可 扩展 性 相似 。 


11.5 并 行 最 佳 优先 搜索 


回 亿 11.2.2 节 ， 开 放 表 是 最 佳 优 先 搜索 算法 (BFS) 的 一 个 重要 部 分 。 它 维持 搜索 图 中 未 展 ”[456 
开 的 闻 扎 ， 这 些 节 点 按照 它们 的 ! 值 排序 。 在 串 行 算 半 中， 最 有 希望 的 节点 从 开放 表 中 移 去 并 
展开 ， 而 新 产生 的 节点 加 入 到 开放 表 中 。 

在 BFS 的 绝 大 多 数 并 行 形式 中 ， 不 同 的 处 理 器 并 发 地 展开 开放 表 中 不 同 的 节点 。 这 些 方法 
的 区 别 在 于 它们 实现 开放 表 时 使 用 的 数据 结构 。 给 定 p 个 处 理 器 ， 最 简单 的 策略 是 将 每 个 处 理 
絮 分 配给 开放 表 中 当前 最 佳节 点 之 一 。 这 称 为 集中 式 策略 (centralized strategy)， 因 为 每 个 处 
理 粥 从 一 个 金 局 开放 表 获 取 任 务 。 由 于 这 种 并 行 BFS 形 式 一 次 展开 不 止 一 个 节点 ， 它 可 能 展 
开 在 串 行 算法 中 不 被 展开 的 节点 。 考 虑 开放 表 中 第 一 个 节点 就 是 解 的 情况 。 并 行 形式 仍然 要 
展开 开放 表 中 的 前 p 个 节点 。 但 是 ， 由 于 它 总 是 选取 最 佳 的 p 个 节点 ， 额 外 工作 量 是 有 限 的 ， 

图 11-14 说 明了 这 种 策略 。 这 种 方法 存在 以 下 两 种 问题 : : : 497 

1) 串 行 BFS 的 终止 标准 不 适用 于 并 行 BFS。 由 于 在 任意 时 刻 ， 开放 表 中 有 P 个 节点 被 展开 ， 

可 能 是 答案 的 节点 并 不 对 应 于 最 佳 目标 节点 (或 找到 的 路 径 不 是 最 短路 径 )。 这 是 因为 ， 剩 下 
的 p-1 个 节点 可 能 导致 包含 更 好 目标 节点 的 搜索 空间 。 所 以 ， 如 果 某 一 处 理 器 找到 的 解 的 成 本 
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为 c， 并 不 能 保证 这 个 解 与 最 佳 目标 节点 对 应 ， 直 到 其 他 处 理 器 搜索 的 节点 成 本 已 知 至 少 为 c。 
必须 修改 终止 标准 ， 保 证 终止 只 发 生 在 找到 最 佳 解 之 后 。 

2 ) 由 于 每 次 节点 展开 时 都 要 访问 开放 表 ， 所 有 处 理 器 必须 是 容易 访问 开放 表 的 ， 这 样 可 
”能 严重 地 影响 性 能 。 即 使 在 共享 地 址 空间 体系 结构 计算 机 中 ， 对 开放 表 的 争 用 会 限制 加 速 比 。 
令 fo 为 展开 一 个 节点 所 需 的 平均 时 间 ，rees 为 展开 一 个 节点 时 访问 开放 表 的 平均 时 间 。 如 果 
串 行 算法 和 并 行 算法 都 要 展开 n 个 节点 (假设 它们 的 工作 量 相同 )， 则 串 行 运行 时 间 为 n(foccess + 
ro )。 假 设 并 行 化 单个 节点 的 展开 是 可 能 的 ， 则 并 行 运行 时 间 至 少 为 mn fts, ， 因 为 展开 每 个 节 
点 时 必须 至 少 访问 开放 表 一 次 。 因 此 ， 加 速 比 的 上 界 为 (sses + is )/toccess 。 


在 指定 处 理 器 维 
持 的 全 局 表 





图 11-14 使 用 集中 式 策略 的 通用 并 行 最 佳 优先 搜索 原理 图 。 
这 里 的 锁定 操作 用 来 实现 不 同 处 理 器 的 队列 访问 串 行 化 


为 了 避免 由 集中 式 开放 表 带 来 的 争 用 ， 让 每 个 处 理 器 拥有 一 个 本 地 开放 表 。 开 始 时 ， 通 
过 展开 一 些 节 点 ， 并 将 这 些 节点 分 配给 不 同 处 理 器 的 本 地 开放 表 ， 在 处 理 器 间 静 态 地 划分 搜 
索 空 间 。 然后， 所 有 的 处 理 器 同时 选择 并 展开 节点 。 考 虑 处 理 器 间 不 互相 通信 的 情况 。 此 时 ， 
某 些 处 理 器 可 能 探查 一 些 不 会 被 串 行 算法 探查 的 部 分 搜索 空间 。 这 样 就 可 能 带 来 更 高 的 搜索 
开销 因子 及 较 差 的 加 速 比 。 因 此 ， 处 理 器 之 间 必 须 通 信 ， 以 减少 不 必要 的 搜索 。 使 用 分 布 式 
开放 表 时 要 对 通信 和 计算 作出 权衡 :减少 分 布 式 开放 表 间 的 通信 开销 会 增加 搜索 开销 因子 ， 
而 用 增加 通信 减少 搜索 开销 因子 会 增加 通信 开销 。 
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搜索 空间 是 树 还 是 图 决定 并 行 BFS 最 佳 通信 策略 的 选择 。 搜 索 图 会 导致 检查 封闭 表 中 重复 
市 点 的 额外 开销 。 下 面 将 分 别 讨论 图 和 树 的 搜索 的 一 些 通 信 策 上 略 。 

1. 并 行 最 佳 优先 树 搜索 的 通信 策略 

一 种 通信 策 路 允许 状态 空间 的 节点 在 不 同 处 理 器 的 开放 表 之 间 交 换 。 通 信 策略 的 目的 是 为 
了 保证 具有 较 好 ! 值 的 节点 能 在 处 理 器 间 平 均 分 配 。 本 节 中 我 们 将 讨论 如 下 三 种 这 样 的 策略 。 

1 ) 在 随机 通信 策略 (random communication strategy) 中 ， 每 个 处 理 器 定期 将 自己 的 一 
些 最 佳节 点 发 送 到 随机 选 出 的 处 理 器 的 开放 表 中 。 这 种 策略 保证 ， 如 果 某 个 处 理 器 存储 了 搜 
索 空 间 的 较 好 部 分 ， 其 他 的 处 理 器 也 能 得 到 搜索 空间 的 一 部 分 。 如 果 节 点 传输 的 频率 较 高 ， 
则 搜索 开销 因子 会 很 小 ;否则 搜索 开销 因子 会 很 大 。 通 信 成 本 决定 了 最 佳节 点 传输 频率 。 如 
东 通 信 成 本 很 低 ， 则 最 好 在 每 个 节点 展开 后 再 通信 。 

2) 在 环形 通信 策略 (ring communication strategy) 中 ， 把 处 理 器 映射 到 一 个 虚拟 环 。 每 
个 处 理 器 定期 把 自己 的 一 些 最 佳节 点 与 环 中 相 邻 节 点 的 开放 表 交 换 。 这 种 策略 可 以 在 消息 传 
递 或 共享 地 址 空间 计算 机 中 实现 ， 把 处 理 器 组 织 成 一 个 逻辑 环 。 和 上 面 的 策略 一 样 ， 通 信 成 
本 决定 了 节点 传输 频率 。 图 11-15 展 示 这 种 环形 通信 策略 。 


交换 最 佳节 点 








本 地 表 本 地 表 
本 地 表 
NS- -一 一 
交换 最 Fd 
佳节 点 交换 最 
佳节 点 
Pi 


图 11-15 用 环形 通信 策略 在 消息 传递 计算 机 上 实现 并 行 最 佳 优先 搜索 


除非 搜索 空间 高 度 均匀 ， 否 则 这 种 方案 的 搜索 开销 因子 会 非常 高 ， 因为 要 花 很 长 时 间 将 
好 市 点 从 一 个 处 理 器 分 配 到 其 他 所 有 处 理 器 。 

3) 在 黑板 通信 策略 (blackboard communication strategy) 中 ， 节 点 通过 一 个 共享 黑板 在 
处 理 粥 间 按 如 下 方式 交换 。 处 理 器 从 本 地 开放 表 中 选 出 最 佳节 点 后 ， 只 有 当 节 点 的 ! 值 处 于 墨 
板 中 最 佳节 点 的 容许 范围 内 ， 处 理 器 才 会 展开 节点 。 如 果 选 出 的 节点 比 黑板 中 的 节点 好 得 多 ， 
则 处 理 器 在 展开 当前 节点 前 ， 将 它 的 一 些 最 佳节 点 送 到 黑板 中 。 如 果 选 出 的 节点 比 黑板 中 的 
市 点 差 得 多 ， 则 处 理 器 从 黑板 中 取 回 一 些 最 佳节 点 ， 并 重新 选择 节点 展开 。 图 11-16 展 示 这 种 
党 板 通信 策略 。 黑 板 策略 只 适用 于 共享 地 址 空间 计算 机 ， 因 为 在 每 个 节点 展开 后 ， 必 须 检 查 
渗 板 中 最 佳节 点 的 值 。 

2. 并 行 最 佳 优先 图 搜索 的 通信 策略 

当 搜 索 图 时 ， 算 英 必 须 检 查 节 点 是 否 重复 。 这 个 任务 在 处 理 器 间 分 配 。 一 种 检查 重复 的 
方法 是 将 每 个 节点 映射 到 某 一 指定 的 处 理 器 ， 随 后 ， 无 论 何 时 产生 了 节点 ， 都 要 映射 到 同一 
处 理 嚣 中， 并 让 处 理 器 在 本 地 检查 节点 重复 。 这 种 方法 可 以 使 用 散 列 函 数 实现 ， 将 蘑 一 节点 


人 
\ 心 
名 
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作为 函数 的 输入 ， 并 返回 一 个 处 理 器 标号 。 当 市 点 产生 后 ， 传 送 给 由 散 列 函数 返回 标号 的 处 
理 器 。 处 理 器 收 到 节点 后 ， 检 查 本 地 的 开放 表 或 封闭 表 中 是 否 已 有 该 季 点 。 如 果 没 有 ， 则 节 
点 插入 到 开放 表 中 ; 如 果 已 有 ， 且 新 的 市 点 有 更 好 的 成 本 与 之 对 应 ， 则 原来 的 节点 就 被 开放 
表 中 新 的 节点 代 赫 。 


Po Pp-1 


11-16 使 用 黑板 通信 策略 的 一 种 并 行 最 佳 优先 搜索 实现 


对 于 随机 散 列 函 数 来 说 ， 这 个 分 配 策 略 的 负载 平衡 性 质 与 上 一 节 讨 论 的 随机 分 配方 法 类 
似 。 这 是 因为 每 个 处 理 器 都 有 同等 可 能 被 分 配 搜索 空间 一 部 分 ， 这 个 部 分 搜索 空间 将 由 串 行 
形式 探查 。 这 个 方法 保证 启发 值 好 的 节点 能 在 所 有 的 处 理 器 间 均 匀 分 配 (习题 11.10)。 但 是 ， 
由 于 每 个 六 点 的 产生 都 会 导 臻 通信， 和 散 列 方法 将 使 性 能 下 降 (习题 11.11)。 


11.6 并 行 搜索 算法 的 加 速 比 异 常 


在 并 行 搜索 算法 中 ， 加 速 比 在 不 同 的 执行 间 差 别 很 大 ， 因 为 由 不 同 处 理 器 考查 的 搜索 空 
间 部 分 是 动态 决定 的 ， 且 对 于 每 个 执行 都 可 能 不 同 。 考 虑 图 11-17 所 示 的 串 行 和 并 行 DFS 在 树 
中 执行 的 情况 。 图 11-17a 展 示 串 行 DFS 搜 索 。 节 点 展开 的 顺序 用 节点 的 标号 表示 。 串 行 形式 在 
到 达 目 标 节 点 G 前 产生 13 个 节点 。 


开始 节点 S 开始 节点 S 
1O RI 
A Wo RO Xo 
3O 4 iiO RO R4 12 
2 > 冰 
O 12C 〇 ) A5 () BO 
Yo bh ooo 


由 串 形 形 式 产生 的 总 节点 数 =13 由 DFS 的 2 处 理 器 形式 产生 的 总 节点 数 =9 
a) b) 


图 11-17 DEFS 的 并 行 形式 和 串 行 形式 搜索 不 同 数量 的 节点 。 本 例 中 ， 
并 行 DFS 到 达 目 标 前 搜索 的 节点 比 串 行 DFS 的 要 少 
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下 面 考虑 图 11-17b 所 示 两 个 处 理 器 的 同一 树 。 由 处 理 器 展开 的 市 点 标号 为 R 和 LL。 并 行 形 
式 仅 在 产生 9 个 市 点 后 到 达 目 标 市 点 。 也 就 是 说 ， 与 串 行 形式 相 比 ， 并 行 形式 到 达 目 标 节 点 所 
需 搜索 的 和 点 较 少 。 在 这 种 情况 下 ， 搜 索 开销 因子 为 9/113 (小 于 1)， 如 果 通 信 开 销 不 太 大 ， 


则 加 速 比 将 是 超 线性 的 。 
最 后 ， 考 虑 图 11-18 所 示 的 情况 。 串 行 形 式 (图 11-18a) 在 到 达 目 标 节点 前 产生 7 个 节点 ， 
但 并 行 形 式 产生 12 个 节点 。 在 这 种 情况 下 ， 搜 索 开 销 因 子 大 于 1， 导 致 亚 线性 加 速 比 。 


开始 玉 点 S 开始 节点 S 


由 串 行 DFS 产 生 的 总 节点 数 =7 由 DFS 的 2 处 理 器 形式 产生 的 总 节点 数 = 12 
a) z b) 


图 11-18 并 行 DFS 形 式 搜 索 节 点 数目 多 于 其 串 行 形式 


总 之 ， 对 于 有 些 执行 ， 并 行 形式 求 出 解 时 产生 的 节点 比 串 行 形式 少 ， 使 其 可 能 获得 超 线 


性 加 速 比 。 对 于 其 他 的 执行 ， 并 行 形式 求 出 解 时 产生 的 节点 比 串 行 形式 多 ， 导 致 亚 线性 加 速 
比 。 用 p 个 处 理 器 执行 所 产生 的 加 速 比 大 于 p， 称 为 加 速 民 常 (acceleration anomaly )。 用 P 个 
处 理 左 执行 产生 的 加 速 比 小 于 pP， 称 为 减速 异常 (deceleration anomaly ) 。 

最 佳 优先 搜索 算法 中 也 显示 出 加 速 异 常 。 这 里 ， 由 于 开放 表 中 节点 的 启发 值 完 全 一 样 ， 
但 求解 所 需 的 搜索 数量 却 大 不 相同 、 因 而 造成 加 速 异 常 。 假 设 有 两 个 这 样 的 节点 ， 节 点 A 能 很 
快 通 向 目标 节点 ， 而 节点 B 在 大 量 操作 后 没有 达到 目标 。 在 并 行 DFS 中 ， 不 同 的 处 理 器 选中 这 
两 个 节点 进行 展开 。 下 面 考虑 并 行 DFS 和 串 行 DFS 的 对 应 性 能 。 如 果 串 行 算法 选中 节点 A 展 开 ， 
会 很 快 到 达 目 标 。 但 是 ， 并 行 算 法 浪费 时 间 展 开 B ， 导 致 减速 异常 。 相 反 ， 如 果 串 行 算法 展开 
节 反 B， 在 丢弃 节点 B 并 选择 节点 A 前 将 浪费 大 量 的 时 间 。 然 而 并 行 算 法 不 会 在 B 上 浪费 如 此 多 
的 上 时间， 因为 节点 A 会 很 快 产生 解 ， 导 致 加 速 异 常 。 


并 行 DFS 的 平均 加 速 比分 析 


在 并 行 搜索 算法 孤立 执行 时 ， 搜 索 开销 因子 可 能 等 于 1、 小 于 1 或 大 于 1。 从 搜索 开销 因子 
的 平均 值 可 以 看 出 一 些 有 趣 的 现象 。 如 果 这 个 值 小 于 1， 则 说 明 串 行 搜索 算法 不 是 最 优 的 。 此 
时 ， 运 行 在 串 行 处 理 器 上 的 并 行 搜索 算法 (通过 用 时 间 分 片 法 模拟 并 行 处 理 器 ) 展开 的 节点 
数量 平均 少 于 串 行 算法 。 在 本 节 中 ， 我 们 将 说 明 ， 对 于 某 一 类 型 的 搜索 空间 ， 并 行 DRS 搜 索 
开销 因子 的 平均 值 小 于 1。 因 此 ， 如 果 通 信 开 销 不 太 大 ， 就 平均 而 言 ， 并 行 DFS 将 对 这 类 搜索 





nN 


to 


370 萝 17 间 


空间 提供 超 线性 加 速 比 。 


1. 假设 条 件 

为 了 分 析 加 速 比 异常 ， 我 们 作 如 下 假设 : 

1) 状态 空间 树 有 M 个 叶 市 挟 。 解 只 出 现在 叶 市 点 上 。 产 生 每 个 叶 市 点 所 需 的 计算 量 是 相 
加 的 。 树 中 产生 的 市 点 数 与 产生 的 叶 节 点 数 成 正比 。 由 于 平均 每 个 节点 有 一 个 以 上 后 
继 节 点 ， 关 于 搜索 树 的 这 个 假设 是 合理 的 。 

2) 串 行 和 并 行 DFS 在 求 出 一 个 解 后 都 停止 。 
3) 在 并 行 DFS 中 ， 状 态 空间 树 在 2 个 处 理 器 中 平均 划分 ; 因此 ， 每 个 处 理 器 得 到 含 M/p 个 


叶 市 点 的 子 树 。 

4) 整 棵 树 中 至 少 有 一 个 解 ( 否则， 并 行 搜索 和 串 行 搜索 产生 整 棵 树 后 都 找 不 到 解 ， 导 致 
线性 加 速 比 )。 

5) 没有 说 明 状 态 空间 树 搜索 顺序 的 信息 ; 因此 ， 通过 未 搜索 节点 的 解密 度 与 搜索 的 顺序 
无 关 。 


6) 解密 度 p 定 义 为 叶 节点 是 解 的 概率 。 假 设 解 服从 贝 努 利 分 布 ; 即 叶 节点 为 解 的 事件 独 
立 于 任何 其 他 叶 节 点 是 解 的 事件 。 另 外 ， 我 们 还 假设 p << 1。 
7) 在 某 个 处 理 器 找到 解 之 前 ，p 个 处 理 器 产生 的 叶 节 点 总 数 用 W, 表示 。 由 行 DFS 在 找到 
解 之 前 产生 的 叶 节 点 平均 数目 为 W。W 和 W, 都 小 于 或 等 于 M。 
2. 搜索 开销 因子 分 析 
考虑 M 个 叶 市 点 被 静态 地 分 成 p 个 区 域 ， 每 个 区 域 有 K = MIp 个 叶 节点 的 情形 。 令 第 ;个 区 
域 中 叶子 之 间 的 解密 度 为 p: 。 在 并 行 算法 中 ， 每 个 处 理 器 P; 独立 地 搜索 区 域 :， 直 到 某 一 处 理 
帮 找 到 解 。 在 串 行 算法 中 ， 区 域 的 搜索 顺序 是 随机 的 。 
定理 令 p 为 某 一 区 域 的 解密 度 ， 假 设 区 域 中 的 叶子 数目 K 很 大 。 如 果 p > 0， 那 么 由 搜索 
区 域 的 单个 处 理 器 产生 叶子 的 平均 数 为 1/p。 


证 明 : 由 于 服从 贝 努 利 分 布 ， 试 验 的 平均 次 数 为 


四 1-(l — p)K+l 
p 


z 
7 ~ ~p) (: +k) L115) 


对 于 固定 的 p 值 和 很 大 的 K 值 ， 公 式 (11-5) 中 的 第 二 项 变 得 很 小 ， 因 此 ， 平 均 试验 次 数 近似 
等 于 1/p。 
串 行 DFS 从 p 个 区 域 中 选 出 任 一 个 的 概率 为 1/p， 并 搜索 这 个 区 域 求解。 因此 ， 串 行 DFS 展 
开 叶 节点 的 平均 数 为 
1/1 1 1 
w > 了 (六 + 二 + 十 十] 


0 Ap pp 


p+2p(1 —p)+...+ Kp(l ~ p)K-! — (K+1)(l—p)* 


这 个 表达 式 假 设 在 选中 的 区 域 中 总 有 解 ; 因此 ， 只 需 搜索 一 个 区 域 。 但 是 ， 区 域 i 中 不 包 
含 解 的 概率 为 (1 -~p;)*。 在 这 种 情况 下 ， 必 须 搜 索 另 一 个 区 域 。 考虑 到 这 一 点 使 罗 的 表达 式 更 
精确 ， 同 时 也 使 W 的 平均 值 有 所 增加 。 分 析 的 总 体 结果 不 变 。 





在 并 行 DFS 的 每 一 步 中 ，P 个 区 域 中 每 个 区 域 的 一 个 节点 被 同时 探查 。 因 此 ， 一 步 并 行 算 
法 中 成 功 的 概率 为 1- [Ed-P) 。 这 近似 于 pi + pp+…+ 记 (忽略 二 次 项 ， 因 为 假设 每 个 p; 都 
很 小 )。 因 此 ， 


p 
pit+P2+.**+pp 


Wb, > 

从 上 式 可 以 看 出 ，W = WHM，W, =1/4M， 其 中 HM 是 pi, pi, … , ps 的 调和 平均 值 ，4M 是 
它们 的 算术 平均 值 。 由于 算术 平均 导 (4M) 和 调和 平均 值 (41) 满 是 关系 AM > HM ， 我 们 有 
W 2 W,. pn 

* 当 Pi = P=… = pp 时 ，AM = HM， 因 此 W 二 W, 。 当 解 均匀 分 布 时 ， 并 行 DFS 的 平均 搜 

过 开销 因子 为 1. 

* 当 每 个 pj 不同 时，AM > HM， 因 此 W > W, 。 当 解密 度 在 不 同 区 域 不 均匀 时 ， 并 行 DFS 的 

平均 搜索 开销 因子 小 于 1， 使 其 可 能 获得 超 线性 加 速 比 。 

上 面 假设 每 个 节点 可 能 独立 于 其 他 是 解 的 节点 ， 对 于 绝 大 多 数 实际 问题 来 说 ， 这 种 假设 
是 不 成 立 的 。 还 有 ， 前 面 的 分 析 假 定 ， 如 果 解 不 在 搜索 空间 内 均匀 分 布 ， 且 没有 与 不 同 区 域 
的 解密 度 相 关 的 信息 ， 则 并 行 DFS 比 串 行 DFS 能 获得 更 高 的 效率 。 这 种 特性 能 适用 于 许多 用 简 
单 问 斋 搜 索 的 问题 空间 。 并 行 DFS 的 搜索 开销 因子 平均 至 少 是 1 的 结果 很 重要 ， 因 为 DFS 是 目 
前 已 知 的 算法 中 最 好 的 ， 也 是 用 于 求解 许多 重要 问题 最 实用 的 串 行 算 法 。 


11.7 书目 评注 


大 量 文献 研究 关于 离散 优化 问题 的 搜索 算法 ， 如 分 支 定 界 搜索 及 启发 式 搜 索 [KK88a， 
LW66, Pea84]。Kumar 和 Kanal[KK83, KK88b] 研 究 人 工 智 能 中 的 分 支 定 界 法 搜索 、 动 态 规划 
以 及 局 发 式 搜索 之 间 的 关系 。Smith[Smi841] 和 Wilf[Wil86] 指 出 ， 在 许多 问题 中 ， 启 发 式 搜 索 
算法 的 平均 时 间 复 杂 度 为 多 项 式 量 级 。 关 于 搜索 算法 的 并 行 形式 ， 也 有 许多 人 做 了 大 量 工 作 。 
下 面 我 们 简要 概括 一 下 这 些 人 的 贡献 。 


1. 并 行 深度 优先 搜索 算法 

已 经 提出 许多 关于 DFS 的 并 行 算法 [AJM88， FM87, KK94, KGR94, KR87b, MV87, Rang91， 
Rao90, SK90, SK89, Vor87a]。 负载 平衡 是 并 行 DFS 的 中 心 问题 。 在 本 意 中 ， 并 行 DFS 的 任务 
分 配 使 用 堆栈 分 割 法 实现 [KGR94, KR87b]， 另 一 种 分 配 任务 方案 使 用 节点 分 割 法 ， 在 其 中 只 
分 配 单 个 节点 [FK88, FTI90, Ran91]。 

本 章 中 讨论 了 状态 空间 搜索 的 形式 ， 其 中 当 处 理 器 空闲 时 请 求 任务 。 这 种 负载 平衡 方案 
称 之 为 接收 者 启动 (receiver-initiated) 的 方案 。 在 其 他 的 负载 平衡 方案 中 ， 有 任务 的 处 理 器 
分 出 一 部 分 任务 给 其 他 ( 收 到 或 未 收 到 请 求 的 ) 处 理 器 。 这 些 方案 称 为 发 送 者 启动 (sender- 
initiated ) 的 方案 。 

有 儿 位 研究 人 员 在 并 行 DFS 中 使 用 接收 者 启动 的 负载 平衡 方案 [FM87. KR87b, KGR94] 。 
Kumar 村 [KGR94] 分 析 这 些 负载 平衡 方案 ， 包 括 全 局 循环 、 随 机 轮 询 、 异步 循环 以 及 最 近邻 
居 等 。11.4 节 对 这 些 方案 的 描述 和 分 析 就 是 基 于 Kumar 等 [KGR94, KR87b] 的 文章 。 

有 上 毕 人 研究 人 员 提 出 了 使 用 发 送 者 启动 的 负载 平衡 方案 的 并 行 DFS[FK88, FTI90， PFK90， 
Ran91, SK89]。Furuichi 等 提出 了 单 层 及 多 层 基于 发 送 者 的 方案 [FTI90]。 Kimura 和 Nobuyuki 
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[KN91] 提 出 了 这 些 方案 的 可 扩展 性 分 析 。Ferguson 和 Korf[FK88, PFK90] 提 出 称 为 分 布 式 树 搜 
索 (distributed tree search, DTS) 的 负载 平衡 方案 。 

对 状态 空间 树 并 行 DFS 提 出 了 使 用 随机 分 配 的 其 他 方法 [KP92, Ran91, SK89, SK90]。 在 
[RK87, SK89] 中 讨论 了 并 行 DFS 中 的 有 关 粒 度 控制 的 问题 。 

在 Sajetore 和 Kale{[SK90] 提 出 的 并 行 DFS 形 式 中 ， 节 点 被 赋予 优先 权 并 被 相应 地 展开 。 他 
们 指出 ， 优 先 权 DFS 形 式 的 搜索 开销 因子 非常 接近 于 1。 对 于 足够 大 的 人 问题， 用 不 断 增 加 处 理 
器 的 数目 就 能 获得 持续 增加 的 加 速 比 。 

在 一 些 关 于 深度 优先 搜索 的 并 行 形式 中 ， 由 不 同 的 处 理 器 按 随机 顺序 独立 地 搜索 状态 空 
间 [JAM87, JAM88]。Challou 等 JCGK93] 和 Ertel[Ert92] 分 别 指出 ， 这 样 的 方法 能 够 用 于 求解 机 
器 人 动作 规划 及 定理 证 明 问 题 。 

绝 大 多 数 通 用 的 DFS 形 式 适 用 于 深度 优先 分 支 定 界 以 及 IDA*， 一 些 研究 人 员 专 门 研究 了 
深度 优先 分 支 定 界 并 行 形式 [AKR89, AKR90, EDH80]。 在 {RK87, RKR87, KS91a, PKF92,， 
MD92] 中 提出 了 许多 IDA* 的 并 行 形式 。 | 

绝 大 多 数 并 行 DFS 形 式 仅 适用 于 MIMD 计 算 机 中 。 由 于 搜索 问题 的 性 质 ，SIMD 计 算 机 被 
认为 本 质 上 不 适合 并 行 搜索 。 但 是 ，Fyre 和 Myczkowski[FM92]，Powley 等 [PKF921 以 及 
Mahanti 和 Daniels[MD92] 的 研究 表明 ， 并 行 深 度 优先 方法 也 能 应 用 在 SIMD 计 算 机 中 。Karypis 
和 Kumar[KK94] 提 出 了 SIMD 计 算 机 的 并 行 DFS 方 案 ， 这 些 方案 同 MIMD 计 算 机 中 的 方案 一 样 
是 可 扩展 的 。 

有 几 位 研究 人 员 从 实验 的 角度 评估 了 并 行 DFS。Finkei 和 ManberfFM87] 在 由 Wisconsin 
大 学 研制 的 Crystal 多 计算 机 上 ， 给 出 一 些 问题 的 性 能 结果 ， 如 旅行 商 问 题 和 骑士 巡游 问题 。 
Monien 和 Vornberger[MV87] 指 出 在 超级 微 处 理 机 网 络 中 许多 组 合 问题 的 线性 加 速 比 。 
Kumar 等 [AKR89, AKR90, AKRS91, KGR94] 为 15 迷 宫 、 重 言 式 验证 、 自 动 测试 模式 产生 等 
问题 在 多 种 不 同 的 体系 结构 上 实现 线性 加 速 比 ， 包 括 128 个 处 理 器 的 BBN Butterfly、128 个 
处 理 器 的 Intel iPSC、1024 个 处 理 器 的 nCUBE2 以 及 128 个 处 理 器 的 Symult 2010。Kumar， 
Grama 和 Rao[GKR91, KGR94, KR87b, RK87] 在 超 立 方 体 、 格 网 以 及 工作 站 网 络 研究 了 其 中 
多 个 方案 的 可 扩展 性 及 性 能 。11.4.5 节 中 的 实验 结果 取 自 Kumar，Grama 和 Rao 的 文章 
[KGR94]。 

也 有 研究 人 员 研 究 了 DFBB 的 并 行 形式 。 这 些 形式 中 ， 有 许多 都 基于 维持 一 个 当前 最 佳 解 ， 
用 作 全 局 界限 。 研 究 人 员 发 现 ， 维 持 当 前 最 佳 解 的 开销 只 是 动态 负载 平衡 开销 的 很 小 部 分 。 
对 于 许多 问题 和 体系 结构 ，DFBB 的 并 行 形式 被 证 实 能 产生 接近 线性 的 加 速 比 [ST95, LM97， 
Eck97, Eck94, AKR89]。 

还 有 许多 研究 人 员 提 出 了 用 于 并 行 搜索 中 的 终止 检测 算法 。Dijkstra[DSG83] 提 出 了 环形 
终止 检测 算法 。 在 11.4.4 节 中 讨论 的 基于 权 的 终止 检测 算法 ， 与 Rokusawa 等 [RICN88] 提 出 的 
算法 类 似 。Dutt 和 Mahapatra[DM93] 讨 论 基于 最 小 生成 树 的 终止 检测 算法 。 


2. Alpha-Beta 搜 索 的 并 行 形式 

Alpha-beta 搜 索 从 本 质 上 说 是 深度 优先 分 支 定 界 搜索 方法 ， 它 从 AND/OR 图 中 找 出 一 棵 最 
优 解 树 [KK83, KK88b]。 许 多 研究 人 员 开 发 了 Alpha-Beta 搜 索 的 并 行 形式 [ABJ82, Bau78， 
FK88, FF82, HB88, Lin83, MC82, MFMV90, MP85, PFK90]。 这 些 方法 中 的 某 些 方法 在 多 处 理 
从中 实现 了 可 观 的 加 速 比 [EK88, MFMV90, PFK90]。 





并 行 处 理 的 实用 性 在 多 种 游戏 中 得 到 了 证 明 ， 如 在 国际 象棋 中 。1990 年 开发 的 深思 (Deep 
Thoughtb) 就 苦于 大 规模 并 行 的 Alpha-Beta 搜 索 [Hsu90]。 这 个 程序 的 棋 力 达到 大 师 级 水 平 。 后 
来 设计 出 的 [BM 深 监 (Deep Blue)[HCH95, HG97] 改 进 了 专用 硬件 、 并 行 处 理 和 算法 ， 击 败 了 
世界 冠军 Gary Kasparov。Feldmann 等 [FMM94] 开 发 了 一 -个 分 布 式 国际 象棋 程序 ， 被 认为 是 完 
全 使 用 通用 硬件 的 最 好 的 计算 机 下 棋 程 序 之 一 -。 


3. 并 行 最 佳 优先 搜索 

许多 研究 人 员 研 究 了 A* 及 分 支 定 界 算法 的 并 行 形式 [KK84, KRR88, LK85, MV87, Qui89， 
HD89a, Vor86, WM84, Rao90, GKP93, AM88, CJP83, KB57, LP92, Rou87, PC89, PR89, PR90, 
PRV88, Ten90, MRSR92, Vor87b, Moh83, MV85, HD87]。 所 有 这 些 形式 都 用 不 同 的 数据 结构 
存储 开放 表 ， 有 些 形式 使 用 集中 式 策略 [Moh84, HD87]; 有 些 使 用 分 布 式 策略 ， 如 随机 通信 策 
略 [Vor87b, Dal87, KRR88]、 环 形 通 信 策略 [Vor86, WM84] 以 及 黑板 通信 策略 [KRR88]。Kumar 
等 [KRR88] 通 过 旅行 商 问题 、 顶 点 覆盖 问题 以 及 15 迷 宫 问题 ， 从 实验 角度 评估 了 集中 式 策略 


以 及 一 毕 分 布 式 策略 的 性 能 。Dutt 和 Mahapatra [DM93, MD93] 提 出 并 评估 了 许多 其 他 的 通信 


策略 。 
Manzini 分 析 了 在 并 行 图 搜索 中 分 配 节 点 的 散 列 技术 [MS90]。Evett 等 [EHMN90] 提 出 了 并 


行 收缩 A*(PRA*)， 它 能 在 内 存 受 限 的 条 件 下 运行 。 在 这 种 形式 中 ， 每 个 节点 散 列 到 唯一 的 处 ， 


理 器 。 如 果 处 理 器 接收 到 的 节点 数目 多 于 它 能 在 本 地 存储 的 数目 ， 则 用 较 差 的 启发 值 收缩 节 
点 。 当 更 多 有 希望 的 节点 不 能 成 为 解 时 ， 这 些 收 缩 的 节点 被 再 次 展开 。 

Karp 和 Zhang[KZ88] 用 节点 的 一 种 指定 搜索 树 模型 的 随机 分 布 分 析 并 行 最 佳 优先 分 支 定 界 
( 即 A* ) 的 性 能 。Renolet 等 [RDK89] 使 用 Monte Cario 模 拟 建立 并 行 最 佳 优先 搜索 的 性 能 模型 。 
Wah 和 Yu[WY85] 提 出 分 析 深度 优先 分 支 定 界 搜索 以 及 最 佳 优先 分 支 定 界 搜索 并 行 形 式 性 能 的 
随机 模型 。 

Bixby[Bix91] 提 出 用 于 求解 对 称 旅行 商 问题 的 切 枝 算法 。 他 还 提出 用 于 航班 乘员 调度 模型 
的 LP 松 驰 解 。Miller 等 [Mil91] 提 出 一 种 最 佳 优先 分 支 定 界 并 行 形式 ， 用 于 在 异 构 网 络 计算 机 
体系 结构 中 求解 不 对 称 旅行 商 问题 。 Roucairol[Rou91] 提 出 共享 地 址 空间 计算 机 中 的 并 行 最 住 
优先 分 支 定 界 并 行 形式 ， 用 于 求解 多 背包 问题 及 二 次 分 配 问题 。 


4. 搜索 算法 并 行 形式 的 加 速 比 异常 

许多 研究 人 员 分 析 了 并 行 搜索 算法 的 加 速 比 异常 [IYF79, LS84, Kor81, LW86, MVS86. 
RKR87]。Lai 和 Sahni[LS84] 提 出 早期 用 于 最 佳 优先 搜索 量化 加 速 比 异常 的 方法 。Lai 和 Spra- 
gue[LS86] 改 进 和 推广 了 这 项 工作 。Lai 和 Sprague[LS85] 还 提出 一 种 解析 模型 ， 并 导出 下 界 函 
数 的 性 质 ， 能 够 保证 当 处 理 器 的 数目 增加 时 异常 不 会 发 生 。Li 和 Wah[LW84, LW86] 以 及 Wah 
靳 [WLY84] 研 究 支配 关系 及 启发 式 函数 ， 以 及 它们 对 不 利 异常 (使 用 p 个 处 理 器 的 加 速 比 小 于 
1) 及 加 速 异 常 的 影响 。Quinn 和 Deo[QD86] 导 出 用 最 佳 定 界 搜索 策略 的 分 支 定 界 算法 的 任意 
并 行 形式 可 达到 的 加 速 比 上 界 。Rao 和 Kumarf[RK88b， RK93] 针 对 使 用 及 不 使 用 启发 式 排 序 信 
息 的 两 种 不 同 模型 ， 分 析 并 行 DFS 的 平均 加 速 比 。 他 们 指出 ， 这 两 种 情况 下 的 搜索 开销 因子 
至 多 为 1。11.6.1 节 的 内 容 即 基于 Rao 和 Kumar[RK93] 的 结果 。 

最 后 ， 人 们 也 开发 了 用 于 实现 并 行 搜索 的 多 种 编程 环境 ， 例 如 DIB[FM87]，Chare- 
Kernel{SK89]，MANIP[WM84] 以 及 PICOS[RDK89]。 
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5. 启发 式 的 作用 

在 搜索 方法 中 ， 启 发 式 方法 是 最 重要 的 部 分 ， 并 且 必 须 把 搜索 算法 的 并 行 形式 算 作 这 种 
启发 起 方法 。 在 BFS 方 法 中 ， 启 发 式 注 重 通 过 降低 有 效 分 支 因子 进行 搜索 。 在 DFBB 方 法 中 ， 
启发 式 提 供 更 好 的 界限 ， 并 从 而 能 减 小 搜索 空间 。 

通常 ， 在 启发 式 能 力 和 搜索 空间 的 有 效 大 小 之 间 存 在 一 种 平衡 。 更 好 的 启发 式 导 致 更 小 
的 搜索 空间 ， 但 是 计算 成 本 也 更 高 。 例 如 ， 在 混合 整数 规划 (MIP) 中 计算 界限 是 强 启 发 式 
的 一 个 重要 应 用 。 多 年 来 ， 混 合 整数 规划 的 进展 非常 迅速 [JNS97]。 但 在 15 年 前 ， 含 100 个 整 
型 变量 的 MIP 问 题 被 认为 是 非常 复杂 的 ， 如 今 ， 在 工作 站 级 别 的 计算 机 上 ， 使 用 枝 切 靶 就 能 
够 求解 最 多 含 1000 个 整 型 变量 的 许多 问题 。 广 为 人 知 的 旅行 商 问题 (TSP) 和 二 次 分 配 问题 
(QAP) 的 实例 就 是 用 强 启 发 式 分支 定 界 法 求解 的 [BMCP98, MP93]。 强 启发 式 的 存在 可 以 很 好 
地 减少 搜索 空间 的 大 小 。 例 如 ， 当 Padberg 和 Rinaldi 于 1987 年 提出 分 支 定 界 算法 时 ， 他 们 用 算 
法 求解 532 个 城市 的 TSP， 这 是 当时 解决 的 最 大 的 也 是 解 最 优 的 TSP。 算 法 改进 后 能 求解 2392 
个 城市 的 TSP[PR91]。 最 近 ， 使 用 切割 平面 ， 已 能 在 串 行 计 算 机 中 求解 超过 7000 个 城市 的 
TSPIJNS97]。 但是， 对 于 许多 问题 来 说 ， 减 小 的 搜索 空间 仍然 需要 使 用 并 行 方法 [BMCP98， 
MP93, Rou87, MMR95]。 将 强 启 发 式 与 有 效 的 并 行 处 理 相 结合 ， 可 以 求解 极 大 的 问题 [MP93]。 
例如 ， 在 NEC 的 Cenju-3 并 行 计 算 机 中 ， 只 用 不 到 9 天 时 间 ， 就 求解 了 Nugent 和 Eschermann 测 
试 程序 中 最 多 到 4.8 x 10! 个 节点 的 QAP 问 题 (Nugent22 与 Gilmore-Lawler 界 限 )。IBM 的 深蓝 
也 同样 令 人 吃惊 。 深 蓝 结合 用 于 产生 和 计算 棋盘 位 置 的 专门 硬件 与 使 用 [BM SP2 的 并 行 博弈 
树 搜索 算法 ， 击 败 了 国际 象棋 世界 冠军 Gary Kasparov[HCH95, HG97]。 

启发 式 方法 对 研究 并 行 化 有 若干 重要 的 结论 。 强 启发 式 使 状态 空间 变 小 ， 从 而 降低 搜索 
宇 间 中 可 用 的 并 发 性 。 同 样 ， 使 用 强 启发 式 也 会 给 并 行 处 理 带 来 其 他 计算 方面 的 困难 。 例 如 ， 
在 切 枝 方 法 中 ， 在 某 一 状态 的 切割 可 能 在 其 他 状态 也 需要 。 因 此 ， 除 了 要 平衡 负载 外 ， 并 行 
切 梳 方 法 还 必须 在 处 理 器 间 划 分 切割 ， 使 工作 于 某 个 LP 域 的 处 理 器 能 访问 它们 需要 的 切割 
[BCCL95, LM97, Eck97]。 

除了 已 经 讨论 的 节点 闻 的 并 行 外 ， 如 果 启 发 式 的 计算 成 本 很 高 ， 则 内 部 节点 并 行 也 是 一 
种 可 行 的 方案 。 例 如 ，Petkny 等 的 丘 值 启发 式 已 被 有 效 地 并 行 化 ， 用 于 求解 城市 数目 很 大 时 
的 TSP 问 题 [MP93]。 如 果 节 点 间 的 并 行 度 很 小 ， 则 可 选用 此 种 并 行 形式 。 分 支 定 界 法 求解 MIP 
问题 时 也 可 使 用 此 并 行 形式 。 切 枝 法 利用 LP 松 驰 法 产生 已 部 分 求 出 的 解 的 下 界 ， 然 后 再 产生 
有 效 不 等 式 JNS97]。 这 些 LP 松 驰 构成 整体 计算 时 间 的 主要 部 分 。 许 多 工业 代码 都 依靠 单纯 形 
法 求解 LP 问题 ， 因 为 即使 行 或 列 增加 ， 解 也 适用 。 虽 然 内 点 法 更 适合 并 行 ， 但 当 行 或 列 增加 
后 《用 切 枝 法 时 )， 重 新 优化 LP 解 时 效率 较 差 。 如 果 处 理 器 数目 较 少 ， 使 用 单纯 形 法 的 LP 松 
驰 并 行 化 较 好 ， 但 如 果 扩 展 到 大 量 的 处 理 器 ， 还 未 取得 成 功 。 基 于 LP 的 分 支 定 界 法 也 用 来 求 
解 二 次 分 配 问题 ， 使 用 迭代 求解 程序 例如， 用 带 前 置 条 件 的 共 示 梯度 近似 计算 内 点 方向 
[PLRR94]。 人 们 使 用 这 些 方法 ， 用 超过 150 000 个 约束 条 件 和 300 000 个 变量 的 线性 规划 ， 求 
解 QAP 的 下 界 。 当 有 大 量 的 处 理 器 时 ， 这 些 求解 程序 和 其 他 一 些 迭 代 求解 程序 也 能 非常 有 效 
地 并 行 化 。 计 算 启 发 式 解 的 通用 并 行 框架 是 由 Pramanick 和 Kuhl[PK95] 提 出 的 。 


习题 
11.1 [KGR94] 在 11.4.1 节 ， 我 们 指出 对 全 局 指针 target 的 访问 是 GRR 人 负载 平衡 方案 中 的 瓶 





时 


颈 。 考 虑 对 方案 进行 修改 ， 在 其 中 增加 消息 结合 。 这 个 方案 的 工作 方式 如 下 。 所 有 对 处 理 器 0 
全 局 指针 iarget 的 值 的 读 取 请 求 都 被 结合 到 中 间 处 理 器 。 因 此 ， 处 理 器 0 要 处 理 的 请 求 总 数 就 
大 大 减少 了 。 本 质 上 ， 这 个 方法 是 取 数 和 相 加 操作 的 软件 实现 。 这 个 方法 也 称 为 GRR-M ( 带 
消息 结合 的 GRR )。 

图 11-19 展 示 如 何 实现 这 个 方法 。 每 个 处 理 器 处 在 完全 (逻辑 ) 二 又 树 的 叶 节 点 上 。 注 意 
这 样 的 逻辑 树 可 以 方便 地 映射 到 物理 结构 中 。 当 处 理 器 想 对 target 进 行 原子 读 并 增 1 操 作 时 ， 
它 将 请 求 沿 着 树 向 上 递交 给 处 理 器 0。 树 的 一 个 内 部 节点 保留 它 的 一 个 子 节 点 的 请 求 ， 保 留 时 
间 最 多 为 6， 然后 把 消息 转发 给 父 节点 。 如 果 在 6 时 间 内 有 请 求 来 自 节 点 的 另 一 个 子 节点 ， 则 
这 两 个 请 求 被 结合 ， 并 作为 一 个 请 求 向 上 传送 。 如 果 i 是 被 结合 的 增加 请 求 的 总 数目 ， 则 target 
的 请 求 增 最 为 i。 


oo ”最初 ，target =x 





图 11-19 消息 结合 及 其 在 8 处 理 器 超 立 方 体 中 的 一 个 实现 实例 


每 个 处 理 费 处 返回 的 值 等 于 所 有 对 target 的 请 求 被 串 行 化 时 处 理 器 返回 的 值 。 实 现 的 过 程 
如 下 : 每 个 结合 后 的 消息 存储 在 每 个 处 理 器 的 表 中 ， 直 到 请 求 被 满足 。 当 target 的 值 送 回 到 内 
部 节点 时 ， 如 果 左 右 子 节点 都 从 targei 处 请 求 值 ， 则 两 个 值 下 传 给 左 子 节点 和 右 子 节点 。 这 两 
个 值 由 表 中 的 项 决定 ， 它 与 两 个 子 节点 的 增 量 请 求 对 应 。 方 案 如 图 11-19 所 示 ， 图 中 起 始 时 
farget 的 值 为 x-， 处 理 器 P。、P,、Ps、Pe 和 P ,发 出 请 求 。 总 请 求 增 量 为 5$。 在 所 有 的 消息 结合 并 
处 理 后 ，target 从 这 些 处 理 器 处 接收 的 值 分 别 为 x、x +1、x +2、x +3 和 x +4。 

对 消息 传递 体系 结构 ， 分 析 该 方案 的 性 能 及 可 扩展 性 。 

11.2 [Lin92] 考虑 另 一 种 负载 平衡 策略 。 假 设 每 个 处 理 器 维持 一 个 称 为 counter 的 变量 。 
初始 时 ， 每 个 处 理 器 将 corrter 的 本 地 副本 置 0。 只 要 有 处 理 器 空闲 时 ， 就 在 嵌入 到 任意 结构 的 
效 辑 环 中 查找 处 理 器 P; 和 P; ,1， 使 得 在 P; 处 的 counter 值 大 于 在 Pi; ,处 的 counier 值 。 然 后 ， 空 闲 
的 处 理 器 向 处 理 器 Pi ,发 送 任务 请 求 。 如 果 不 存在 这 样 的 处 理 器 对 P; 和 P; ,,， 则 请 求 发 送 给 处 
理 禹 0。 收 到 一 个 任务 请 求 后 ， 处 理 器 将 本 地 counter 的 值 加 1。 

请 设计 检测 处 理 器 P, 和 Pi ,对 的 算法 。 根 据 检 油 P; 和 P; ,对 的 算法 ， 在 消息 传递 结构 上 分 
析 负 载 平衡 方案 的 可 扩展 性 。 

提示 : 这 个 方案 的 任务 传送 数目 的 上 界 与 GRR 的 类 似 。 

11.3 在 分 析 11.4.2 节 中 的 多 种 负载 平衡 方案 时 ， 我 们 假设 传送 任务 的 成 本 独立 于 已 传送 
任务 的 数量 。 但 是 ， 在 有 些 问题 中 ， 任务 传送 的 成 本 是 已 传送 任务 数量 的 函数 。 例 如 ， 有 的 
应 用 程序 在 可 使 用 强 启发 式 的 域 中 进行 树 搜索 。 对 于 这 种 应 用 程序 ， 根据 搜索 树 的 节点 数目 
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不 同 ， 表 示 搜 索 树 的 堆栈 大 小 会 有 显著 变化 。 

考虑 表示 含 w 个 节点 的 搜索 空间 的 堆栈 大 小 为 Vw 的 情况 。 假 定 所 用 的 负载 平衡 方案 是 
GRR。 分 析 在 消息 传递 体系 结构 中 这 种 方案 的 性 能 。 

11.4 ”考虑 11.4.4 节 中 的 Dijkstra 令 牌 终止 检测 方案 。 证 明 用 这 种 终止 检测 方案 对 整体 等 效 
率 函 数 的 贡献 为 O(pD?)。 对 与 这 个 等 效率 项 相关 的 常量 加 以 评论 。 

11.5 考虑 11.4.4 节 中 的 基于 树 的 终止 检测 方案 。 在 这 种 算法 中 ， 由 于 计算 机 的 精度 有 限 ， 
权 可 能 变 得 很 小 ， 最 终 可 能 会 变 为 0。 在 这 种 情况 下 ， 终 止 信号 永远 也 不 会 发 出 。 可 对 算法 修 
改 ， 只 对 权 的 倒数 而 不 是 权 自身 进行 操作 。 请 编写 修改 后 的 终止 算法 ， 并 证 明 算 法 能 正确 进 
行 终止 检测 。 : : 

11.6 ”[DM93] 考 虑 一 种 终止 检测 算法 ， 在 这 种 算法 中 ， 直 径 最 小 的 生成 树 映射 到 给 定 的 
并 行 计 算 机 的 体系 结构 中 。 这 种 树 的 中 心 是 一 个 顶点 ， 它 到 离 它 最 远 顶 点 的 距离 达到 最 小 。 
生成 树 的 中 心 被 作为 树 根 。 

进行 并 行 搜索 时 ， 处 理 器 可 能 空闲 ， 也 可 能 村 已 。 终 止 检测 算法 要 求 系统 中 所 有 的 任务 
传送 都 被 ack 消 息 确认 。 如 果 处 理 器 有 任务 ， 或 者 它 已 把 任务 送 给 另 一 个 处 理 器 ， 但 对 应 的 
ack 消 息 还 没收 到 ， 那 么 处 理 器 繁忙 ; 否则 处 理 器 空 亲 。 生 成 树叶 子 上 的 处 理 器 在 空闲 时 ， 发 
送 stop 消 息 给 它们 的 父 节 点 。 生 成 树 中 间 层 上 的 处 理 器 在 收 到 所 有 子 节点 传 来 的 stop 消 息 后 ， 
把 stop 消 息 上 传 给 它们 的 父 节 点 ， 然 后 它们 自己 变 为 空 闪 。 当 根 处 理 器 从 所 有 的 子 节点 收 到 
stop 消 息 并 变 为 空闲 时 ， 就 发 出 终止 信号 。 

由 于 处 理 器 发 送 stop 消 息 给 父 节点 后 还 可 能 接收 到 任务 ， 处 理 器 通过 发 送 resume 消 息 给 
它 的 父 节 点 表示 它 已 接收 到 任务 。resume 消 息 在 树 中 上 传 ， 直 到 遇 到 先前 发 出 的 stop 消 息 。 
遇 到 stiop 消 息 时 ，resume 消 息 使 stop 消 息 无 效 。 然 后 ， 发 送 一 条 ack 消 息 给 转送 出 部 分 任务 的 
处 理 器 ， 

用 实例 证 明 这 种 终止 检测 方法 能 正确 发 送 终止 信和 号。 对 于 深度 为 log p 的 生成 树 ， 确 定 基 
于 该 终止 检测 算法 的 等 效率 项 。 

11.7 [FTI90，KN91] 考 虑 一 种 单 层 负载 平衡 方案 ， 工 作 方式 如 下 : 一 个 指定 的 称 为 
manager 的 处 理 器 产生 许多 子 任务 ， 并 把 子 任务 一 个 接 一 个 地 分 配给 请 求 的 处 理 器 。manager 
按 深 度 优先 遍 历 搜索 树 到 一 预定 的 截止 深度 ， 并 将 此 深度 的 节点 作为 子 任务 分 配 。 增 加 截止 
深度 会 增加 子 任务 的 数目 ， 但 使 子 任务 更 小 。 处 理 器 只 有 在 完成 以 前 的 子 任务 后 ， 才 能 从 
manager 请 求 男 一 个 子 任务 。 因 此 ， 如 果 某 一 处 理 器 得 到 了 与 大 子 树 对 应 的 子 任务 ， 就 会 向 
manager 发 送 很 少 的 请 求 。 如 果 截 止 深度 足够 大 ， 这 个 方案 会 在 处 理 器 间 导 致 好 的 负载 平衡 。 
但 是 ， 如 果 截 止 深度 过 大 ， 则 分 配给 处 理 器 的 子 任务 会 变 得 很 小 ， 处 理 器 会 更 频繁 地 发 送 请 
求 给 manager。 在 这 种 情况 下 ，manager 成 为 类 颈 。 因 此 ， 这 个 方案 的 可 扩展 性 很 差 。 图 11-20 
展示 这 种 单 层 任务 分 配方 案 。 

假设 在 任意 两 个 处 理 器 间 传 送 一 部 分 任务 的 成 本 可 以 忽略 不 记 ， 请 推导 单 层 负载 平衡 方 
案 可 扩展 性 的 解析 表达 式 。 

11.8 [FII90，KN91] 考 虑 多 层 任务 分 配方 案 ， 通 过 多 层 子 任务 的 产生 防止 单 层 方案 的 子 
任务 广 生 瓶颈 。 在 这 种 方案 中 ， 处 理 器 排列 成 深度 为 d 的 mm 元 树 。 顶 层 子 任务 产生 的 任务 交 给 
根 处 理 器 。 该 方案 将 任务 分 成 超级 子 任务 ， 并 将 这 些 超级 子 任务 分 配给 请 求 中 的 后 面 的 处 理 
等 。 这 些 处 理 器 再 细 分 超级 子 任务 为 子 任务 ， 并 把 子 任务 分 配给 请 求 中 的 后 面 的 处 理 器 。 一 
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旦 叶子 处 理 器 完成 了 前 面 的 任务 ， 就 重复 地 从 它们 的 父 节点 请 求 任务 。 当 某 一 叶子 处 理 背 指 
定 的 子 任务 产生 器 处 理 完 任务 时 ， 该 叶子 处 理 器 就 分 配给 另 一 个 子 任务 产生 器 。 当 d = 1 时 ， 
多 层 和 单 层 方案 完全 相同 。 试 评价 这 个 方案 的 性 能 和 可 扩展 性 。 
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图 11-20 树 搜索 的 单 层 任务 分 配方 案 


11.9 [IFK88] 考 虑 分 布 树 搜索 方案 ， 其 中 处 理 器 被 动态 地 分 配给 搜索 树 的 不 同 部 分 。 初 始 
时 ， 所 有 的 处 理 器 都 被 分 配给 根 。 当 根 节点 展开 时 ( 由 分 配给 它 的 处 理 器 之 一 展开 )， 按 照 选 
择 的 处 理 器 分 配 策略 ， 把 在 根 节点 的 不 相连 的 处 理 器 子 集 分 配给 每 个 后 继 。 一 个 可 能 的 处 理 
器 分 配 策略 是 ， 将 处 理 器 平等 地 在 先辈 节点 中 划分 。 这 个 过 程 直到 只 有 一 个 处 理 器 分 配给 一 
个 节点 时 结束 。 此 时 ， 处 理 器 串 行 地 搜索 根 在 节点 的 树 。 如 果 处 理 器 完成 了 对 根 在 节点 的 搜 
索 树 的 搜索 ， 它 被 重新 分 配给 父 节点 。 如 果 父 节点 仍然 有 其 他 的 后 继 节点 要 探查 ， 则 这 个 处 
理 器 被 分 配给 这 些 后 继 节 点 之 一 。 否 则 ， 处 理 器 分 配给 父 节 点 。 直 到 整个 树 搜索 完毕 ， 过 程 
才 终 止 。 评 价 这 个 方案 的 性 能 和 可 扩展 性 。 
11.10 ”考虑 一 种 图 的 最 佳 优先 搜索 并 行 形式 ， 使 用 散 列 函 数 将 节点 分 配给 处 理 器 (11.5 663 
节 )。 这 种 方案 的 性 能 受 两 个 因素 影响 : 通信 成 本 以 及 展开 的 “好 ”节点 数目 (“好 ”节点 是 
串 行 算法 也 会 展开 的 节点 )。 对 这 两 个 因素 的 分 析 可 以 相互 独立 地 进行 。 
假设 一 个 完全 随机 的 散 列 函数 (函数 中 每 个 节点 被 散 列 到 处 理 器 的 概率 等 于 1/p)。 证 明 
由 这 个 并 行 形式 展开 的 预期 节点 数目 不 等 于 通过 常量 因子 ( 即 独 实 于 p) 展开 的 最 优 节点 数目 。 
假设 将 一 个 节点 从 一 个 处 理 器 传送 到 另 一 个 处 理 器 所 需 的 通信 成 本 为 0(1)， 导 出 这 个 方案 的 
等 效率 函数 。 
11.11 在 习题 11-10 的 并 行 形式 中 ， 假 设 串 行 形式 和 并 行 形式 展开 的 节点 数目 相同 。 对 消 
息 传递 结构 分 析 这 种 形式 的 通信 开销 。 这 种 形式 可 扩展 吗 ? 如 果 可 以 ， 它 的 等 效率 函数 是 什 
么 ?如 果 不 可 以 ， 在 什么 样 的 互连网 络 中 ， 它 才 是 可 扩展 的 ? 
提示 : 注意 完全 随机 的 散 列 函数 与 多 对 多 私自 通信 操作 对 应 ， 它 是 带宽 敏感 的 。 5 











第 12 章 动态 规划 


动态 规划 (dynamic programming, DP) 是 一 种 常用 的 方法 ， 可 用 来 求解 多 种 多 样 的 离散 
优化 问题 ， 如 调度 、 字 符 串 编辑 、 包 装 问题 以 及 仓储 管理 等 。 最 近 ， 人 们 又 将 动态 规划 应 用 
于 生物 信息 学 中 ， 如 氨基 酸 及 核 背 酸 测序 等 (Smith-Waterman 算 法 )。DP 把 问题 看 作 一 组 相 
互 依赖 的 子 问 题 。 先 求解 子 问 题 ， 再 用 子 问题 的 结果 去 求解 更 大 的 子 问题 ， 直 到 求解 整个 问 
题 。 在 分 而 治之 方法 中 ， 问 题 的 求解 只 与 子 问题 的 求解 有 关 ， 与 之 相反 ，DP 中 子 问 题 间 可 能 
存在 相互 联系 。 在 DP 中 ， 子 问题 的 解 是 以 前 面 层 的 一 个 或 多 个 子 问 题 的 解 的 函数 来 表示 的 。 


12.1 动态 规划 概述 
下 面 ， 我 们 首先 用 一 个 简单 的 DP 算法 来 计算 图 的 最 短路 径 。 
例 12.1 最 短路 径 问 题 


考虑 查找 无 圈 图 中 一 对 顶点 间 最 短路 径 问 题 的 DP 形式 。( 有 关 图 的 术语 的 介绍 见 10.1 节 。) 
连接 市 点 i 和 布 护 的 边 的 成 本 为 c(i, j)。 如 果 两 个 顶点 i 和 不 相连 ， 则 c(i, 站 = “> 。 图 中 含 n 个 节 
后 ， 编 号 为 0, 1, 2, … , n~1，、 只 有 在 i < j 时 才 存 在 从 i 到 ;的 边 。 最 短路 径 同 题 就 是 在 节点 0 和 节 
扩 n 一 1 间 找 到 最 小 成 本 路 径 。 用 f(x) 表 示 从 节点 0 到 节点 x 的 最 小 成 本 路 径 的 成 本 。 于 是 f(0) 为 0， 


求 出 f(n~1) 的 值 就 得 到 了 问题 的 解 。 这 个 问题 的 DP 形式 得 出 下 面 f(x) 的 递归 公式 : 
0 x 二 0 
f= min{fO) tej x) l<x< nl (12.1) 
Oc j<x . 


作为 这 个 算法 的 例子 ， 考 虑 图 12-1 所 示 的 5 节点 无 圈 图 。 问 题 是 求 出 f(4)。 它 可 由 f (3) 和 
f(2) 计 算 。 上 有 具体 的 计算 公式 如 下 : / 
f (4) = min{f (3) + c(3, 4), f(2) + c(2, 4)} 
因此 ，f(4) 的 求解 要 依靠 子 问题 1 (3) 和 f (2)。 同 样 ，f (3) 要 依靠 f (1) 和 f (2)， 而 f (1) 和 f (2) 依 靠 
f(0)。 由 于 f(0) 已 知 ， 它 可 用 来 求解 (1) 和 f(2)， 而 f(1) 和 f(2) 可 用 来 求解 f(3)。 加 





图 12-1 计算 节点 0 和 4 之 间 最 短路 径 的 图 


通常 ，DP 问 题 的 解 表 示 为 可 能 选择 解 的 最 小 值 (或 最 大 值 )。 每 个 这 样 的 可 选择 解 由 组 合 
一 个 或 多 个 子 问 题 来 构造 。 如 果 r 表 示 由 子 问 题 x1, x;， …, 妨 所 组 成 解 的 成 本 ， 则 x 可 写成 
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r = g(f (x1), f(x2),..., f(x) 


函数 g 称 为 组 合 函 数 (composition function)， 其 性 质 由 问题 决定 。 如 果 每 个 问题 的 最 优 
解 都 由 组 合子 问题 的 最 优 解 并 选择 最 小 值 〈 或 最 大 值 ) 决定 ， 则 形式 称 为 DP 形 式 。 图 12-2 展 
示 这 种 组 合 及 最 小 值 的 实例 。 问 题 xs 的 解 是 三 个 成 本 为 r!/、r; 和 rr; 的 可 能 解 当 中 的 最 小 值 。 第 
一 个 解 的 成 本 由 子 问 题 x, 和 x; 的 组 合 解 决定 第 二 个 解 的 成 本 由 子 问题 x% 和 x;: 的 组 合 解决 定 ， 
第 三 个 解 的 成 本 由 子 问 题 x*,、xe 和 x 组 合 的 解决 定 。 z 

”DP 将 优化 问题 的 解 表示 成 一 个 递归 公式 ， 其 左边 是 未 知 量 ， 右 边 是 一 个 最 小 值 (或 最 大 
值 ) 的 表达 式 。 这 种 公式 称 为 泛 函 方程 (functional equation ) 或 优化 方程 (optimization 
equation )。 在 公式 (12-1) 中 ， 复 合 销 数 g 由 f0) + cG, 加 给 出 ， 这 个 函数 是 可 加 的 ， 因 为 它 是 两 
个 项 的 和 。 在 一 般 的 PP 形式 中 ， 成 本 国 数 不 必 要 是 可 加 的 。 泛 国 方 程 中 如 果 只 包含 一 个 递归 
项 (如 /0O))， 就 变 成 一 元 (monadic) DP 形 式 。 对 于 任意 的 DP 形 式 ， 成 本 函数 可 能 包含 多 个 
递归 项 。 如 果 成 本 国 数 包含 多 个 递归 项 ， 则 DP 形 式 称 为 多 元 (polyadic) 形式 。 
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图 12-2 计算 和 组 合子 问题 的 解 以 求解 问题 f(xs) 


DP 形式 中 ， 子 问题 间 的 相关 性 可 用 有 向 图 来 表示 。 图 中 的 每 个 节点 表示 一 个 子 问 题 。 从 
节点 到 节点 /的 有 向 边 的 含义 是 : 节点 潜 示 的 子 问题 的 解 用 来 计算 由 节点 /表示 的 子 问 题 的 解 。 
如 果 图 是 无 圈 图 ， 则 图 中 的 节点 可 按 层 来 组 织 ， 只 要 某 一 层 上 的 子 问题 只 取决 于 上 一 层 的 子 
问题 。 在 这 种 情况 下 ，DP 形 式 可 用 如 下 方法 分 类 。 如 果 所 有 层 的 子 问题 只 取决 于 它 的 直接 上 
层 的 结果 ， 则 形式 称 为 囊 行 DP 形式 ;否则 称 为 非 囊 行 DP 形式 。 

根据 上 面 的 分 类 原则 ， 我 们 将 DP 形式 分 成 四 类 : 串 行 一 元 、 串 行 多 元 、 非 囊 行 一 元 ， 以 
及 非 事 行 多 元 。 但 这 种 分 类 并 不 完备 : 有 些 DP 形 式 不 能 归 到 这 四 类 形式 的 任何 一 类 中 。 

由 于 用 DP 形 式 能 求解 很 多 类 问题 ， 很 难 开发 一 般 性 的 并 行 算法 。 但 是 ， 四 类 DP 中 每 个 问 
题 的 并 行 形 式 都 有 相似 之 处 。 在 本 章 中 ， 我 们 将 对 每 一 类 有 代表 性 的 问题 讨论 并 行 DP 形 式 。 
这 些 问 题 的 并 行 算法 也 能 用 在 同一 类 的 其 他 问题 中 。 但 是 要 注意 ， 不 是 所 有 的 DP 问题 都 能 用 
这 些 例子 所 讲 的 方法 并 行 化 。 
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12.2 串 行 一 元 DP 形式 


使 用 串 行 一 元 DP 形式 可 求解 许多 问题 。 本 市 将 讨论 多 级 图 的 最 短路 径 问 题 以 及 0/1 缘 包 问 
题 。 我 们 对 这 两 个 问题 都 提供 了 并 行 算法 ， 并 指出 影响 这 些 并 行 算法 的 具体 性 质 。 





图 12-3 在 市 点 可 组 织 成 层 的 图 中 用 串 行 一 元 DP 形 式 查找 最 短路 径 的 例子 


12.2.1 最 短路 径 问题 


考虑 如 图 12-3 所 示 的 r +1 层 加 权 多 级 图 。 层 i 上 的 每 一 个 节点 都 与 i+1 层 上 的 每 个 节点 相连 。 
0 层 和 r 层 只 有 一 个 节点 ， 每 个 其 他 的 层 都 有 n 个 节点 。 我 们 将 0 层 上 的 节点 称 为 起 始 节点 $5， 将 
r 层 上 的 市 扩 称 为 终止 节点 R。 这 个 问题 的 目标 是 找 出 从 5 到 R 的 最 短路 径 。 图 中 ! 层 的 第 i 个 节点 
标记 为 vi 。 连 接 节 点 vi 与 v*! 的 边 的 成 本 标记 为 df 。 从 任意 节点 vi 到 目标 节点 R 的 成 本 
用 Cf 表示 。 如 果 层 /有 n 个 节点 ， 则 向 量 [ G6 ，Cf , … , C41]? 记 为 C'。 最 短路 径 问 题 简 化 为 计算 
C。 由 于 图 只 含 一 个 起 始 节 点 ， 所 以 C? = [ C8 ]。 图 的 结构 为 ， 从 v! 到 R 的 任何 路 都 要 包含 节 
所 VA (0<j<n-1)。 任 何 这 种 路 径 的 成 本 都 是 vi 和 v* 间 边 的 成 本 与 vi* 与 R (由 C 信 给 出 ) 间 
最 短路 径 的 成 本 之 和 。 因 此 ，Y 和 R 间 的 最 短路 径 成 本 C! ， 等 于 所 有 通过 层 !+ 1 上 每 个 节点 
的 路 径 的 最 小 成 本 。 所 以 ， 


Ci = min (ej + cHdl isanode at level 1 + 1| (12-2) 
由 于 所 有 的 节点 v 站 在 r 层 只 有 一 条 边 将 它们 与 目标 节点 R 相 连 ， 成 本 Cr 等 于 c 沼 。 因 
此 ， 
C= [cI RCR,..., Cr-1.g] (12-3) 
因为 公式 (12-2) 的 右边 只 含 一 个 递归 项 ， 它 是 一 元 形式 。 注 意 子 问题 的 解 只 需要 它 的 直接 


上 层 的 子 问 题 的 解 。 因 此 ， 它 是 串 行 一 元 形式 。 
对 最 短路 径 问 题 使 用 这 种 递归 形式 ， 可 得 从 ! 层 上 (0 < 1 < r-1) 任 意 节 点 到 达 目 标 节点 R 的 
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成 本 为 
C0 = min{(chot+CH), (ci 二 CD (ci + Ct!)) 
C1 = minf(clo 二 Ch,(c 1 二 C+D (ct 十 CI) 
C， = min{(c,_10 十 C0), (ch 十 C1+!) 9 (cn_1n_! 十 Ct!))} 


现在 考虑 矩阵 与 向 量 相 乘 操作 。 在 矩阵 -向 量 乘积 中 ， 如 果 加 法 操作 用 求 最 小 值 代 替 ， 乘 
法 操作 用 加 法 操作 代替 ， 则 上 面 的 方程 组 等 于 


C = Mitr x Ci (12-4) 


其 中 C' 和 C'* 是 n x 1 疝 量 ， 表 示 从 ! 层 和 ! +1 上 的 每 个 顶点 到 达 目 标 顶 点 的 成 本 ，AM, 1 是 
nxn 矩阵， 矩阵 中 的 项 (i, 有) 存储 连接 ! 层 节点 i 和 1 +1 层 节点 /的 边 的 成 本 。 这 个 矩阵 可 写 为 


ho hl he 
C1,0 C11 “Cn-l 
cr_10 cn_1.1 … Cn_ln-! 

最 短路 径 问 题 重 新 表示 成 一 系列 矩阵 -向 量 相 乘 。 在 串 行 计 算 机 上 ，DP 形 式 开 始 时 用 
公式 (12-3) 计 算 C1， 然 后 用 公式 (12-4) 对 k = 1, 2, … , r-2 计 算 C:。 最 后 ， 用 公式 (12-2) 
计算 C?。 

由 于 每 一 展 上 有 n 个 节点 ， 计 算 每 个 向 量 C' 的 成 本 为 6(n?)。 可 以 从 8.1 节 讨论 的 矩阵 -向 量 
相 乘 并 行 算法 中 得 到 这 个 问题 的 并 行 算法 。 例 如 ，6B(n) 个 处 理 器 可 以 在 B@(n) 时 间 内 计算 每 个 
阿 量 C ， 而 求解 整个 问题 的 时 间 为 edr n)， 其 中 r 是 图 的 层 数 。 

如 果 依 赖 图 与 上 面 讲 的 图 相同 ， 则 许多 关于 依赖 图 的 串 行 一 元 DP 形式 可 用 类 似 的 并 行 算 
法 并 行 化 。 但 是 ， 对 于 某 些 依赖 图 而 言 ， 这 种 形式 并 不 适合 。 如 果 某 个 图 中 ， 某 一 层 的 每 个 
五 点 上 只 能 从 前 一 晨 的 一 小 部 分 节点 处 到 达 ， 则 矩阵 Mi 1 ,中 会 包含 许多 值 为 w 的 元 素 。 此 时 ， 
对 于 求 最 小 值 和 加 法 运算 而 言 ， 和 矩阵 1 被 考虑 成 稀 朴 和 矩阵。 这 是 因为 ， 对 于 所 有 的 x, x + % = 
%， 而 min{x, %} = x。 因 此 ， 对 于 值 为 ~ 的 元 素 不 需要 进行 求 最 小 值 和 加 法 操作 。 如 果 使 用 
前 规 的 稠密 和 矩阵- 向量 相 乘 算法 ， 则 每 个 矩阵 -向 量 相 乘 的 计算 复杂 度 比 对 应 的 稀疏 图 和 矩阵 - 
回 量 相 乘 算法 高 出 很 多 。 所 以 ， 我 们 必须 使 用 稀疏 图 矩阵- 向量 相 乘 算法 计算 每 个 向 量 。 


12.2.2 0/1 背 包 问 题 


一 维 0/1 背包 问题 定义 如 下 : 给 定 背包 的 容量 为 c, "个 物品 的 编号 为 1, 2, … n， 每 个 物品 ;i 
的 重量 为 Wi ， 利 润 为 p; 。 物 品 的 重量 和 利润 为 整数 。 令 v = [vi, v,, …, v, ] 为 解 向 量 ， 其 中 ， 如 
水 物品 ;不 在 背包 中 ， 则 w = 0， 如 果 物 品 在 背包 中 ， 则 w = 1。 目 标 是 找 出 能 放 到 背包 中 的 物 
品 的 一 个 子 集 ， 使 得 


n 
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( 即 物品 能 放 到 背包 中 ) 且 
》 piv 
i 二 1 


为 最 大 〈 即 利润 最 大 )。 , 
求解 这 个 问题 的 一 个 直接 方法 是 ， 考 虑 所 有 2" 个 可 能 的 物品 子 集 ， 并 选 出 一 个 能 放 入 背包 
且 利 涧 最 大 的 子 集 。 这 里 将 使 用 DP 形式 ， 在 c = 0(2"/n) 时 ， 速 度 比 直接 方法 快 。 令 F[i, x] 是 容 
量 为 x 的 背包 中 存放 物品 {1, 2, … 站} 时 的 最 大 利润 ， 则 Ftn, c] 就 是 问题 的 解 。 这 个 问题 的 DP 形 
式 如 下 : 
0 X>20,i=0 
Fli,x]= 1 一 co xX<0i=0 
max{Ffi—1,x),(Fli~l,x— w+p)} l<icn 


这 个 递 妇 公式 将 求 出 最 大 利润 的 背包 。 在 当前 的 背包 容量 为 x 时 ， 向 背包 中 加 入 物品 ;的 决 
策 将 导致 两 种 情况 : iD 不 加 入 物品 ， 背 包容 量 仍然 是 +， 利润 不 变 ; i) 加 入 物品 ， 背 包容 量变 
为 x-w; ， 利 润 增加 p; 。DP 算 法 根据 是 否 能 得 到 最 大 利润 来 决定 是 否 加 入 物品 。 

这 个 DP 形 式 的 串 行 方法 需要 维持 一 个 大 小 为 上 x c 的 表 琅 。 表 按 以 行为 主 的 方式 构建 。 算 
法 开始 时 ， 对 于 不 同 容量 的 背包 ， 只 使 用 第 一 件 物品 作为 最 大 利润 ， 这 对 应 于 填充 表 的 第 一 
行 。 填 充 后 面 的 行 需 要 前 一 行 的 两 项 : 一 项 来 自 同 一 列 ， 另 一 项 来 自 抵消 物品 的 重量 列 。 因 
此 ， 计 算 任 一 项 FE 四 需要 F[i-1, jj 和 F[i~1, j~w;]， 如 图 12-4 所 示 。 计 算 每 一 个 项 所 需 的 时 间 
为 常数 ; 这 个 算法 的 串 行 运行 时 间 为 8(n c)。 
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Po Pj-w-!l Pj-i 《ce-2 Pe-i 


图 12-4 在 0/1 缘 包 问 题 中 计算 表 F 中 的 项 。 计 算 F[i, 四 中 的 项 需要 和 
包含 F[i~1, 有 站 及 F[i-1,j-wi] 的 处 理 器 通信 


这 个 形式 是 申 行 一 元 形式 。 对 于 i =1, 2, … , n， 子 问题 FTi, 四 被 组 织 到 4 层 中 。i 层 问题 的 计 
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算 只 依赖 于 盖 1 层 的 子 问 题 。 因 此 形式 是 串 行 的 。 由 于 F[, 如 的 两 个 可 替换 解 的 每 一 个 只 依赖 
于 一 个 子 问 题 ， 该 形式 是 - -元 的 。 进 而 ， 由 于 某 一 层 的 问题 只 依赖 上 一 野 的 两 个 子 问题 ， 层 
间 的 依赖 性 是 很 小 的 。 

考虑 将 这 个 算法 在 CREW PRAM 上 并 行 化 ， 设 CREW PRAM 有 c 个 处 理 器 ， 标 号 从 Po 到 
P,-,。 处 理 器 P,-, 计 算 矩 阵 F 的 第 r 列 。 在 迭代 ;中 计算 FU, r] 时 ， 处 理 器 P,- 需 要 FLj-1, 门 和 
FLD-1, r~wj] 的 值 。 处 理 器 p,_, 在 常数 时 间 内 可 以 读 取 和 矩阵 F 中 的 任何 元 素 ， 因 此 ， 计 算 FU, >] 
也 需要 靖 数 时 间 。 所 以 每 次 迭代 需要 常数 时 间 。 由 于 一 共有 mn 次 和 迭代， 并行 运 行 时 间 为 B(m)。 
该 形式 使 用 c 个 处 理 器 ， 故 处 理 器 ~ 时 间 乘 积 为 8(nc)。 所 以 ， 算 法 是 成 本 最 优 的 算法 。 

现在 在 有 c 个 处 理 器 的 分 布 式 内 存 的 计算 机 上 考虑 算法 。 表 F 在 所 有 的 处 理 器 间 分 配 ， 每 
个 处 理 况 负责 计算 一 列 ， 如 图 12-4 所 示 。 每 个 处 理 器 本 地 存储 所 有 物品 的 重量 和 利润 。 在 第 j 
次 迭代 中 ， 要 在 处 理 器 P-: 计 算 F 六 , r]，F[j~1, 7] 本 地 可 得 到 ， 但 FD-1, r-w,; ] 需 要 从 另 一 个 处 
理 器 获取 。 这 对 应 于 4.6 布 所 讲 的 wj 循环 移 位 操作 。 如 果 有 p 个 处 理 器 ， 消 息 大 小 为 nm， 网 络 有 
足够 的 带宽 ， 则 这 种 循环 移 位 所 需 时 间 的 上 界 为 (4 + tm)log p。 由 于 消息 的 大 小 只 有 一 个 字 ， 
县 P = <c， 这 个 时 间 由 (* + mm )log c 表 示 。 如 果 求 和 及 求 最 大 值 操作 需 时 上 ， 则 每 次 选 代 所 需 时 
间 为 t+ (1 + tj)log c。 由 于 这 样 的 迭代 有 n 次 ， 总 时 间 为 O(n log c)。 这 种 形式 的 处 理 器 -时 间 
乘积 为 O(n c log c); 因此 ， 算 法 不 是 成 本 最 优 的 算法 。 

如 果 增 加 每 个 处 理 器 的 元 素 个 数 ， 该 算法 又 会 是 什么 样 的 结果 呢 ? 使 用 p 个 处 理 器 ， 在 每 
次 先 代 中 ， 每 个 处 理 器 计算 表 中 c/p 个 元 素 。 在 第 i 次 先 代 中 ， 处 理 器 Po 计算 元 素 FU, 1], …, FLU， 
c/p]， 处 理 器 Pi 计算 元 素 FD, c/p +1],…, FU, 2c/p]， 以 此 类 推 。 对 于 任意 的 :， 计 算 F[j, A] 都 需 
要 FU-1 各 和 FU-1 k~wj] 的 值 ， 所 需 的 表 F 中 的 数据 可 通过 循环 移 位 从 远程 处 理 器 取得 。 根 
据 w 和 p 的 值 ， 需 要 的 非 本 地 数据 可 从 一 个 或 两 个 处 理 器 处 取得 。 注 意 ， 不 管 数 据 来 自 一 个 还 
古 两 个 处 理 器 ， 通 过 这 些 消息 传送 的 字 总 数 为 c/p。 假 设 c/p 很 大 ， 且 网 络 有 足够 的 带宽 (4.6 
证 )， 这 个 操作 所 需 的 时 间 最 多 为 (21, + twc/p)。 由 于 每 个 处 理 器 计算 c/p 个 元 素 ， 每 次 迭代 的 总 
时 间 为 Lc/p + 21; + hkcp。 因 此 ， 算 法 在 x 次 迭代 中 的 并 行 运行 时 间 为 m(kc/p + 21; + twc/p)。 用 
浙 近 的 说 法 ， 并 行 运行 时 间 为 O(nc/p)。 它 的 处 理 器 -时 间 乘 积 为 O(nc)， 是 成 本 最 优 的 。 

这 个 并 行 形式 的 效率 有 一 个 上 界 ， 因 为 需要 通信 的 数据 量 和 计算 量 处 于 同一 个 数量 级 ，。 
这 个 上 限 由 t, 和 zt 的 值 决 定 ( 习 题 12.1)。 


12.3 非 串 行 一 元 DP 形式 
从 两 个 序列 中 找 出 最 长 公共 子 序列 的 DP 算法 可 用 非 串 行 一 元 DP 形式 表示 。 
最 长 公共 子 序列 问题 


给 定 一 个 序列 4 =〈 au az … ar ) ，A 的 子 序列 可 从 A 中 删除 一 些 项 得 到 。 例 如 ，( a,b,z，) 
是 《 c, a, d, 5b,r,z 〉 的 子 序列 , 但 《a,c,z〉 和 《a, d, 1 则 不 是 。 最 长 公共 子 序 列 
(longest-common-subsequence, LCS ) 问题 可 以 表述 如 下 : 给 定 两 个 序列 4 = 《aj, a;, …, a, ) 
及 B= bi, b2,…, bm )， 找 出 既是 4 又 是 8 的 子 序列 中 最 长 的 一 个 。 例 如 ， 如 果 A = 《ec, a, d, 4b， 
,ZZ)，B= 《a,s,b,z )， 则 4 和 B 的 最 长 公共 子 序 列 为 《a,b,z )。 

令 FL[i 由 表示 序列 4 中 前 ;个 元 素 和 序列 B 中 前 /个 元 素 的 最 长 公共 子 序列 的 长 度 ， LCS 问 
题 的 目标 是 找 出 F[n, m]。 这 个 问题 的 DP 形式 用 F[i-1, j~1]、F[i, j-1] 以 及 F[i-1, 中 表示 
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F[i, 有 中 如 下 : 
0 如 果 i = 二 0 或 j= 二 0 
Fli, j=4 FE 一 1 一 HU+l 如 果 i,j >0 有 是 = yj 
max {Fli,j ~—1), Fli~—1,))} 如 果 i,j>0 生计 产 y) 


给 定 两 个 序列 4 和 B， 考 虑 两 个 指 回 序 列 起 点 的 指针 。 如 果 两 个 指针 指向 的 项 相同 ， 则 它 
们 是 最 长 公共 子 序列 的 成 员 。 因 此 ， 两 个 指针 都 可 以 移动 到 各 自序 列 的 下 一 项 ， 最 长 公共 子 
序列 的 长 度 也 相应 增加 1。 如 果 指 针 指向 的 项 不 同 ， 则 可 能 有 两 种 情况 : 最 长 公共 子 序列 可 能 
由 4 的 最 长 子 序 列 及 将 指针 移动 到 8 的 下 一 个 项 得 到 的 序列 构成 ， 或 者 由 8B 的 最 长 子 序列 及 将 
指针 移动 到 A 的 下 一 个 项 得 到 的 序列 构成 。 由 于 我 们 要 确定 最 长 子 序列 ， 必 须 选 择 这 两 种 情况 
中 的 最 大 值 。 

这 种 DP 形式 的 串 行 实现 按照 以 行为 主 的 央 序 计算 表 F 中 的 值 。 由 于 表 中 每 一 项 的 计算 量 
不 变 ， 该 算 甘 的 整体 复杂 度 为 BG(nm)。 如 图 12-5 a 所 示 ， 这 个 DP 算法 是 非 串 行 一 元 的 。 把 沿 对 
角 线 的 节点 当成 属 干 同一 层 ， 每 个 节点 要 依赖 上 一 层 的 两 个 子 问题 及 上 两 层 的 一 个 子 问 题 。 
由 于 某 一 层 任 意 子 问题 的 解 只 是 上 一 层 某 一 个 解 的 函数 ， 这 个 形式 是 一 元 的 。( 注 章 ， 在 公式 
(12-5) 的 第 三 种 情况 下 ，F[i,j~-1 及 F[i-1, 刀 都 是 F[i, 有 站 的 可 能 解 ， 而 这 两 者 中 的 最 大 值 是 FL[i, 站 
的 最 优 解 。) 从 图 12-5 看 出 ， 这 个 问题 有 非常 规则 的 结构 。 : 


0 1 2 m 
0 0 0 Qo 0 0 
NT ee 
1 0 OO O OO 计 O O 
NT NT | | NI NI | 
2 0 一 (一 > 人 一 > 人 GO 二 (人 
NNT YN | | NTN | 
0 一 蕊 一 中 一 O 站 O O37 i 
-oro-o oo ooo 0 
Po nh Pa 
a) b) 


图 12-5 最 长 公共 子 序列 问题 : a) 计算 表 F 中 的 项 。 计 算 沿 虚 斜 线 
进行 ;b) 映射 表 中 的 元 素 到 处 理 器 


例 12.2 计算 两 个 氨基 酸 序列 的 LCS 


让 我 们 来 考虑 两 个 氨基 酸 序列 HB BRAGRARWGHEE 和 PRARWRHEARAE 的 LCS。 对 
感 兴趣 的 读者 ， 对 应 的 氨基 酸 名 称 为 ，A- 丙 胺 酸 ，E- 谷 氨 酸 ，G- 甘 氨 酸 ， H- 组 气 酸 ，P- 且 
氨 酸 ，W- 色 氮 酸 。 图 12-6 中 列 出 这 两 个 序列 中 表 天 的 项 ， 通过 找 出 最 大 值 并 枚 举 出 所 有 的 匹 
配 ， 可 得 出 这 两 个 序列 的 LCS 为 RA W H E E. 加 
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为 了 简化 讨论 ， 我 们 只 讨论 xn = m 时 的 并 行 形式 。 考 虑 这 种 算法 在 n 个 处 理 吏 的 CREW 


PRAM 上 的 并 行 形式 。 每 个 处 理 器 已 计算 表 天 的 第 i 列 。 从 左上 和 角 到 右 下 角 按 对 角 线 扫描 的 方法 


CA 
Cn 


计算 表 中 的 项 。 因 为 有 n 个 处 理 器 ,每 个 处 理 器 能 存 取 表 F 中 的 任何 项 ， 计 算 每 条 对 角 线 上 的 
元 素 需 要 的 时 间 为 定 值 (对 角 线 最 多 能 包含 4 个 元 素 )。 由 于 这 样 的 对 角 线 有 2n--1 条 ， 算 法 需 
要 B(m) 次 夺 代 。 因 此 ， 并 行 运行 时 间 为 8B(2)。 算 法 是 成 本 最 优 的 ， 因 为 它 的 处 理 器 -时 间 乘 积 
为 (0 ， 等 于 串 行 复杂 度 。 





A 

W 

H 

E 

A 0 1 2 3 3 3 3 3 3 4 4 
E 0 l 2 3 3 3 3 3 3 4 3 


图 12-6 用 于 计算 序列 HE A GAWGHEE 和 P AWHEA E 的 LCS 的 表 FF 


这 个 算法 也 可 用 在 含 n 个 处 理 器 的 逻辑 线性 阵列 中 ， 在 不 同 的 处 理 器 间 分 配 表 。 注 意 使 
用 2.7.1 市 讲述 的 幅 入 技术 ， 这 种 逻辑 拓扑 结 构 可 以 映射 到 多 种 物理 结构 中 。 处 理 器 P; 存储 表 
中 的 第 (i +1) 列 。 表 F 中 的 项 按 图 12-5b 所 示 分 配 到 处 理 器 中 。 计 算 F[i, 让 的 值 时 ， 处 理 器 P| 需 
要 从 它 左 边 的 处 理 器 得 到 F[i-1,j-1] 或 FLi, j-1] 的 值 . 它 从 相 邻 的 处 理 器 传送 一 个 字 需 时 1, + 7 
要 计算 表 中 的 每 个 项 ， 处 理 器 都 需要 从 它 的 直接 邻居 处 得 到 一 个 值 ， 然 后 才能 进行 计算 ， 所 
需 时 间 为 k。 由 于 每 个 处 理 器 计算 对 角 线 上 的 一 个 项 ， 每 次 迭代 所 需 时 间 为 (4 + 1, + 1.)。 算 法 
对 整个 表 作 (2n~1) 次 对 角 线 扫 描 〈 选 代 )， 因 此 ， 总 并 行 运行 时 间 为 

Tp = (2n — D(s + tw + te) 


由 于 串 行 运行 时 间 为 mt ， 这 个 算法 的 效率 为 
n2t. 


站 = 一 一 一 ~ 
n(2n — DD)(ts titw + tc) 


仔细 俩 究 这 个 表达 式 可 以 看 出 ， 不 可 能 获得 超过 某 一 阔 值 的 效率 。 为 了 计算 这 个 阔 值 ， 
假设 处 理 器 间 的 值 同 时 通信 和 是 可 能 的 ; 即 k = t= 0。 在 这 种 情况 下 ， 并 行 算法 的 效率 为 
1 


Emaxr = ————— 
max 2— 1/n 


(12-5) 
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因此 ， 效 率 的 上 界 为 0.5。 即 使 有 多 个 列 映射 到 一 个 处 理 器 ,这 个 上 界 也 不 改变 。 使 用 其 
他 的 映射 方法 则 可 达到 更 高 的 效率 (习题 12-3)。 

注意 这 个 算法 允许 有 效 的 并 行 形式 的 基本 特性 ， 在 于 能 够 这 样 划分 表 ， 使 得 计算 每 个 元 
素 时 只 需 从 相 邻 的 处 理 器 取得 数据 。 换 句 话说 ， 算 法 显示 数据 存 取 的 本 地 性 。 


12.4 串 行 多 元 DP 形式 
Floyd 全 部 顶点 对 间 的 最 短路 径 算法 可 以 改 用 串 行 多 元 DP 形 式 表示 。 
Floyd 全 部 顶点 对 间 的 最 短路 径 算 法 


考虑 加 权 图 G， 它 包含 节点 集合 V 和 边 集合 E。E 中 从 节点 i 到 节点 ;的 边 的 权 为 c;; 。Floyd 算 
法 确定 集合 V 中 全 部 顶点 对 (i， 四 间 的 最 短路 径 的 成 本 di (10.4.2 节 )。 路 径 的 成 本 是 路 径 中 所 
有 边 的 权 值 之 和 。 

令 从 节点 到 节点 j 的 路 径 的 最 小 成 本 为 小 ， 只 使 用 节点 vo, vi, … vi_:。 这 个 问题 DP 形式 的 
泛 轩 方程 为 


人 Ci k=0 


dt.= 
b,j min [dt ! , (dri! + dk i)} 0O<k<n-il (12-6). 


由 于 di 是 使 用 全 部 n 个 节点 时 从 节点 i 到 节点 /的 最 短路 径 ， 它 也 是 节点 i 到 节点 ) 间 总 的 最 
短路 径 成 本 。 这 个 算法 的 品行 形式 需要 进行 4 次 迭 代 ， 每 次 选 代 需 时 B(n?)。 因 此 ， 申 行 算法 
的 整体 运行 时 间 为 @(n3)。 z | 

公式 (12-6) 表 示 的 是 串 行 多 元 形式 。 节 点 dh 可 以 分 成 n 层 ， 每 个 k 值 一 层 。k +1 层 上 的 元 
素 只 依赖 k 层 上 的 元 素 。 因 此 、 该 形式 是 串 行 的 。 由 于 dt; 的 一 个 解 需要 用 到 上 一 层 两 个 子 问 
题 di! 和 di) 解 的 组 合 ， 该 形式 是 多 元 的 。 而 且 ， 层 与 层 之 间 的 依赖 性 很 小 ， 因 为 计算 dp 
中 的 每 个 元 素 只 需要 上 一 层 的 三 个 结果 (一 共有 w 个 结果 )。 

这 个 算法 的 一 个 简单 CREW 下 处 理 器 被 组 织 成 一 个 逻辑 二 维 
数组 ， 其 中 处 理 器 Pij 计算 dt 的 值 , 上 = 1, 2， 。 在 每 次 稀 代 k 中 ， 处 理 器 Pj; 需要 用 到 
dt71 ，dir 和 dtj 的 值 。 有 了 这 些 值 后 入 法 在 常数 时 间 计算 的 值 。 因 此 ，PRAM 并 行 形 
式 的 并 行 运行 时 间 为 9@(。 由 于 处 理 器 -时 间 乘 积 等 于 串 行 运行 时 间 B(nm?) ， 这 个 形式 是 成 本 
最 优 的 。 这 个 算法 能 应 用 在 许多 实际 体系 结构 中 ， 得 出 有 效 的 并 行 形 式 (10.4.2 节 )。 

与 串 行 一 元 形式 一 样 ， 数 据 本 地 性 也 是 串 行 多 元 形式 的 本 质 ， 因 为 在 许多 这 样 的 形式 中 ， 
层 与 层 之 间 的 联系 非常 少 。 


12.5 非 串 行 多 元 DP 形 式 


在 非 串 行 多 元 DP 形式 中 ， 除 了 并 行 处 理 同一 层 上 的 子 问题 外 ， 也 可 使 用 流水 线 方式 计算 
提高 效率 。 下 面 用 最 优 和 矩阵 带 括号 问题 说 明 这 种 形式 。 


最 优 矩 阵 带 括 号 问题 


考虑 将 n 个 矩阵 相 乘 的 问题 ，n 个 矩阵 分 别 为 41, 4:, …, A,， 其 中 4; 是 具有 ri 行 和 列 的 秆 
阵 。 知 阵 间 相 乘 的 顺序 对 用 来 求 乘积 的 计算 量 总 和 有 重要 的 影响 
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例 12.3 最 优 和 矩阵 带 括号 问题 


有 72 全 


芳 虑 三 个 矩阵 4 、42 和 43:， 其 大 小 分 别 为 10 x 20、20 x 30 和 30 x 40。 这 三 个 抢 阵 的 乘积 
可 通过 (4 x 4,) x 43 或 4 x (A, x 43) 计 算 。 如 果 使 用 (4, x A,) x 43， 则 计算 (4, x 42) 需 要 10 x 20 
x 30 次 操作 ， 得 到 大 小 为 10 x 30 的 矩阵 。 将 它 乘 以 43 还 需要 10 x 30 x 40 操 作 。 因 此 总 操作 次 
数 为 10 x 20 x 30 + 10 x 30 x 40 = 18 000。 同 样 ， 计 算 4, x (4, x 43) 需 要 20 x 30 x 40 + 10 x 20 


* 40 = 32 000 次 操作 。 很 明显 ， 第 一 种 带 括号 方法 是 可 取 的 。 


” 带 括号 问题 的 目标 是 为 了 确定 括号 的 位 置 ， 使 得 操作 次 数 最 少 。 枚 举 出 所 有 可 能 的 带 括 


527| 号 方法 是 不 可 行 的 ， 因 为 这 种 可 能 性 的 数量 是 指数 级 的 。 


令 CL[i, 有 是 矩阵 A, ,.…, 4 相 乘 的 最 优 成 本 。 这 条 和 托 阵 链 可 以 表示 为 两 条 更 小 的 矩阵 链 4, ， 
4 A A. A 的 乘积 。 链 Ai, hi; 41, ..…, A 导致 维 数 是 7,_1 x x 的 矩阵 ， 而 链 Ak ,1，.…， A, 
导致 维 数 是 ri x 的 矩阵 。 将 这 两 个 矩阵 相 乘 的 成 本 为 ri_ir Tio 因此 ， 带 括号 (4， ; Ai 1. AL ) 
(M+..., hj) 的 成 本 由 CE[i， Kk] + Ck +1,j] + VTi-iFeT) 给 出 、 这 样 就 推导 出 带 括号 问题 的 如 下 递 推 关 


系 : 


ct.n=| MAC CRTL tr li<jen 
0 


j=i,0<ic n 


( 12-7) 


有 了 公式 (12-7)， 问 题 就 简化 为 求解 C[1, n] 的 值 。 和 矩阵 链 的 成 本 组 合 如 图 12-7 所 示 。 用 自 
底 向 上 的 方法 构建 存储 C[i, 有 ] 的 值 的 表 C， 可 以 求解 公式 (12-7)。 算法 填充 表 C 的 顺序 与 求解 在 
不 断 加 长 的 矩阵 链 上 带 括号 的 问题 相对 应 。 将 它 想象 成 按 对 角 线 填充 则 更 形象 化 (图 12-8)。 
对 角 线 ! 中 的 项 与 将 长 度 为 ! +1 的 矩阵 链 相 乘 的 成 本 对 应 。 从 公式 (12-7) 中 可 以 看 出 ，C[i, j] 的 
值 用 min{C[Li, 科 + CIk +1, 及 + re 计算， 其 中 /的 取 值 范围 从 ;到 j-1。 因此， 计算 Cfi, 尹 需 
要 求 V-D 个 值 ， 并 选 出 其 中 的 最 小 值 。 计 算 每 一 个 值 需 时 + ， 计 算 CEi, 刀 需 时 0G-i)t. 。 因 此 ， 


对 角 线 / 上 的 每 一 个 项 都 能 在 Lt 时 间 内 计算 出 。 








图 12-7 使 用 一 种 非 串 行 多 元 形式 寻找 含 4 条 箔 阵 链 的 最 优 矩 阵 
带 揪 号 方法 。 方 形 节点 表示 一 个 矩阵 链 相 乘 的 最 优 成 本 。 
圆 形 节点 表示 一 种 可 能 的 带 括号 方法 


计算 最 优 带 括号 序列 的 成 本 时 ， 算 法 要 计算 长 度 为 2 的 (n-1) 条 链 ， 需 时 (n-1)t. 。 同 样 ， 计 
算 (2-2) 条 长 度 为 3 的 链 需 时 ("-2)2x 。 在 最 后 一 步 ， 算 法 计算 长 度 为 m 的 一 条 链 ， 需 时 (nx-1) 1 。 
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因此 ， 这 个 算法 的 串 行 运行 时 间 为 


Ts = (天 十 (一 2)27 十 .十 1 一 TD 
n—l 
= -ii 
[一 | 
(03/6)r (12-8) 
算法 的 串 行 复杂 度 为 8(m)。 


”对 角 线 2 


二 对 角 线 1 





” “对 角 线 0 


图 12-8 计算 最 优 和 矩阵 带 括号 问题 的 对 角 线 顺序 


考虑 这 个 算法 在 含 4 个 处 理 器 的 逻辑 环 中 的 并 行 形式 。 在 第 !/ 步 ， 每 个 处 理 器 计算 属于 第 / 
条 对 角 线 的 一 个 元 素 。 处 理 器 P; 计算 表 C 中 的 第 (i +1) 列 。 图 12-8 说 明 这 种 表 在 处 理 器 间 的 划 
分 。 在 计算 表 C 中 元 素 的 赋值 后 ， 每 个 处 理 器 用 多 对 多 广播 (4.2 节 ) 对 所 有 其 他 处 理 器 发 送 
它 的 值 。 因 此 ， 下 一 次 选 代 中 的 赋值 可 以 在 本 地 计算 。 在 第 次 迭代 中 ， 计 算 表 C 中 的 一 个 项 
需 时 lt. ， 因 为 它 对 应 于 长 度 为 ! +1 的 链 相 乘 的 成 本 。 在 nz 个 处 理 器 中 ， 对 一 个 字 进行 多 对 多 广 
播 需 时 Alog n + hb (1 (4.2 节 )。 计 算 对 角 线 /的 项 所 需 的 总 有 时间 为 lt. + tslog n +t,(n-1)。 并 
行 运行 时 间 是 对 n-1 条 对 角 线 进行 计算 所 需 的 时 间 之 和 : 

nl] 


Tp = D (lct+tslognt+ tv(n— 1)) 
{=] 


一 】 
二 2 + ts(n—1)lognt+tv(n— 1) 
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这 个 算法 的 并 行 运行 时 间 为 86(n*)。 由 于 处 理 器 ~ 时 间 乘 积 为 86(n?)， 与 串 行 复杂 度 相 同 ， 
这 个 算法 是 成 本 最 优 的 算法 。 

当 使 用 按 逻 辑 环 方式 组 织 的 p 个 处 理 器 (1 < p< nn) 时 ， 如 果 对 角 线 上 有 nt 个 节点 ， 则 每 个 处 
理 紫 存储 n/p 个 市 点 。 每 个 处 理 器 计算 分 配给 它 的 项 的 成 本 C[i, 四。 计算 后 ， 使 用 多 对 多 广播 
将 最 近 一 次 计算 的 对 角 线 上 的 子 问 题 的 成 本 发 送 给 所 有 其 他 的 处 理 器 。 由 于 每 个 处 理 器 中 都 
有 前 一 条 对 角 线 上 子 回 题 成 本 的 完全 信息 ， 不 需要 其 他 的 通信 。 对 mp 个 字 进 行 多 对 多 广播 所 
需 时 间 为 log p + twn(p-1D/p islog p+ tn。 计 算 第 /条 对 角 线 的 表 中 的 n/p 个 项 需 时 Lt.n/p。 并 
行 运行 时 间 为 

n—l 


DUien/p 二 ts logp++ twn) 
[一 1 


| 


Tp 


= TD +is(n— 1)logp+itovn(n ~ 1). 
2p 
用 数量 级 的 说 法 ，Tp = 8B(ni/p) + 8B(n*)。 这 里 ，B(n3/p) 是 计算 时 间 ;B(n”) 是 通信 有 时间。 
如 果 n 与 p 相 比 足够 大 ， 则 通信 时 间 与 计算 时 间 相 比 只 占 很 小 的 部 分 ， 这 样 就 能 导致 线性 加 速 
比 。 . 
这 种 形式 最 多 能 使 用 B(n) 个 处 理 器 在 B(n”) 时 间 内 完成 计算 任务 。 如 果 以 流水 线 方法 用 n(n 
+1)/2 个 处 理 占 计算 CL[i, 胃 ， 则 时 间 还 会 缩短 。 每 个 处 理 器 计算 第 阵 C 的 一 个 项 c(i, j))。 由 于 问题 
的 非 串 行 性 质 ， 可 使 用 流水 线 方 法 。 计 算 对 角 线 :上 的 项 不 仅仅 需要 对 角 线 :~1 上 的 项 ， 还 需要 
所 有 更 前 面 对 角 线 中 的 项 。 因 此 ， 对 和 角 线 :的 计算 其 至 可 以 在 对 角 线 :-1 上 的 计算 完成 前 开始 。 


12.6 绽 述 与 讨论 


本 章 提出 推导 使 用 动态 规划 的 并 行 算法 的 框架 ， 既 指出 并 行 化 可 能 的 来 源 ， 又 说 明 在 何 

种 条 件 下 才能 有 效 地 使 用 并 行 化 。 z 
通过 把 计算 表示 成 图 的 形式 ， 我 们 指出 并 行 化 的 三 个 来 源 。 第 一 ， 计 算 单个 子 问题 ( 某 

层 上 的 一 个 节点 ) 的 成 本 可 以 并 行 化 。 例 如 ， 计 算 如 图 12-3 所 示 的 多 级 图 中 的 最 短路 径 ， 由 
于 市 点 计算 的 复杂 度 本 身 是 B(n)， 对 节点 的 计算 可 以 并 行 化 。 但 是 ， 对 于 很 多 问题 来 说 ， 节 
所 计算 的 复杂 度 较 低 ， 限 制 了 并 行 化 的 使 用 。 

第 二 ， 每 一 层 上 的 子 问 题 可 以 并 行 求解 。 这 就 给 从 很 大 一 类 问题 (包含 本 章 的 所 有 问题 ) 
获取 并 行 提供 了 可 行 的 方法 。 , 

串 行 与 非 串 行 形式 都 可 以 使 用 前 两 种 来 源 的 并 行 化 。 非 串 行 形式 还 可 使 用 第 三 种 来 源 的 
并 行 化 : 将 计算 在 不 同 层 间 用 流水 线 方法 进行 。 流 水 线 方法 能 够 在 某 一 问题 所 依赖 的 子 问 题 
求解 时 ， 马 上 开始 求解 该 问题 。 这 种 形式 的 并 行 用 于 带 括号 问题 中 。 

注意 ， 流 水 线 方法 也 能 应 用 在 Floyd 爹 部 顶点 对 间 的 最 短路 径 算法 (10.4.2 节 ) 的 并 行 形 
式 中 。 正 如 10.4.2 节 所 讨论 的 那样 ， 这 个 算法 与 一 申 行 DPP 形 式 对 应 。 这 个 算法 的 流水 线性 质 
写 非 串 行 DP 形式 的 性 质 不 同 。 在 Floyd 算 法 的 流水 线 版 本 中 ， 某 一 级 的 计算 以 及 前 几 级 间 的 通 
信和 都 用 流水 线 方法 实现 。 如 果 通 信 成 本 为 0 (如 在 PRAM 中 )， 则 Floyd 算 法 并 不 能 从 流水 线 方 
法 中 获得 好 处 。 

数据 本 地 性 的 重要 性 贯穿 全 章 。 如 果 某 一 问题 的 解 依 赖 于 其 他 子 问 题 的 解 ， 则 传送 结果 
的 成 本 必须 低 于 求解 问题 的 成 本 。 在 某 些 问题 中 (如 0/1 背 包 问 题 )， 其 本 地 性 程度 要 远 远 小 
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于 其 他 问题 (如 最 长 公共 子 序列 问题 以 及 Floyd 全 部 顶点 对 间 的 最 短路 径 问 题 ) 的 本 地 性 。 


12.7 书目 评注 


动态 规划 最 早 是 由 Bellman[Bel57] 提 出 的 ， 用 于 求解 多 级 决策 问题 。 此 后 人 们 为 DP 开发 
了 多 种 形式 模型 [KH67, MM73, KK88b]。 不 少 教材 和 文章 也 对 最 长 公共 子 序 列 问 题 、 和 矩阵 链 
乘法 问题 、0/1 背 包 问 题 以 及 最 短路 问题 提出 了 串 行 DP 形 式 [CLR90. HS78, PS82, Bro79]。 

Li 和 Wah[LW85, WL88] 提 出 ， 一 元 串 行 DP 形 式 可 在 脉动 阵列 中 用 和 矩阵 -向 量 相 乘 的 并 行 
形式 求解 。 通 过 将 该 问题 表示 成 矩阵 -和 矩阵 相 乘 ， 他 们 还 提出 了 并 发 性 更 好 但 不 是 成 本 最 优 的 
形式 。Ranka 和 SahnifRs90b] 为 字符 串 编 辑 问 题 提出 多 元 串 行 形式 ， 并 导出 基于 棋盘 划分 的 并 
行 形式 。 


一 大 类 优化 问题 的 DP 形 式 与 最 优 矩 阵 带 括号 问题 类 似 。 这 些 问题 包括 最 优 多 边 形 三 角 化 


问题 、 最 优 二 又 查找 树 [CLR90] 问 题 以 及 CYK 和 句法 分 析 问 题 [AU721]。 所 有 这 些 问 题 的 标准 DP 
形式 的 串 行 复杂 度 为 9("?)。 在 Ibarra 等 [IPS91] 提 出 的 几 个 并 行 形式 中 ， 在 超 立 方 体 上 使 用 
8B() 个 处 理 器 ， 能 在 B@(n”)) 时 间 内 求解 问题 。Guibas，Kung 和 Thompson[GKT79] 提 出 一 种 脉动 
算法 ， 能 使 用 B(n”) 个 处 理 器 在 B@(n) 时 间 内 求解 问题 。Karypis 和 Kumar[KK93] 分 析 由 Guibas 等 
[GKT79] 提 出 的 脉动 算法 的 三 种 不 同 映射 方法 ， 并 通过 求解 矩阵 相 乘 带 括号 问题 ， 用 实验 方 
法 评价 三 种 映射 方法 。 他 们 指出 ， 如 果 将 这 个 算 靶 直接 映射 到 格 网 结构 中 ， 则 效率 的 上 界 为 
1/12。 对 于 矩阵 带 括号 问题 ， 他 们 还 提出 了 另 一 种 更 好 的 映射 方法 ， 即 将 格 网 映射 到 256 个 处 
理 器 的 超 立 方 体 中 ， 这 种 方法 既 没 有 上 一 种 方法 的 缺点 ， 还 能 带 来 近乎 线性 的 加 速 比 。 

对 于 求解 带 括号 问题 ， 人 们 提出 了 许多 快速 并 行 算法 ， 但 这 些 算 法 往往 不 是 成 本 最 优 的 ， 
且 只 能 应 用 于 像 PRAM 这 样 的 理论 模型 中 。 例 如 ，Valiant 等 [VSBR83] 为 并 行 化 求解 这 类 问题 
提出 了 一 种 通用 方法 ， 使 用 O(n”) 个 处 理 器 ， 运 行 时 间 为 O(logn)。Rytter[Ryt88] 通 过 在 树 中 使 
用 并 行 卵 石 博弈 ， 能 够 在 CREW PRAM 中 将 处 理 器 的 数量 减少 到 O(ns/iog 由 ， 在 超 立 方 体 中 减 
少 到 O(n*)， 而 运行 时 间 只 和 需 O(log?n)。Huang 等 [HLV90] 在 CREW PRAM 模 型 中 提出 一 个 类 似 
的 算法 ， 使 用 OU 3log nn) 个 处 理 器 ， 运 行 时 间 为 O(VYnlogn)。DeMello 等 [DCG90] 在 Cray 计 算 
机 中 使 用 向 量化 DP 形式 求解 最 优 控 制 问题 。 

从 本 章 可 以 看 出 ，0/1 背 包 问 题 的 串 行 多 元 形式 很 难 并 行 化 ， 因 为 缺少 通信 本 地 性 。Lee 
等 [LSS88] 利 用 背包 问题 的 特殊 性 质 ， 在 MIMD 消 息 传 递 计 算 中 ， 导 出 并 行 化 背包 问题 DP 算 法 
的 分 治 策略 〈 习 题 12.2 )。Lee 等 用 实验 说 明 ， 对 于 超 立 方 体 中 问题 的 大 量 实例 可 以 获得 线性 
加 速 比 。 


习题 


12.1 考虑 12.2.2 节 中 求解 0/1 背 包 问 题 的 并 行 算法 。 导出 这 个 算法 的 加 速 比 及 效率 。 证 明 ， 
对 于 固定 数目 的 处 理 器 ， 通 过 增 大 背包 问题 规模 ， 这 个 算法 的 效率 不 可 能 超过 某 个 值 。 对 于 
这 种 形式 ， 效 率 作为 和 i. 的 函数 ， 其 上 界 是 多 少 ? 

12.2 [LSS88] 在 12.2.2 节 讨论 的 0/1 背 包 问 题 的 并 行 形式 中 , 并 发 度 与 背包 的 容量 c 成 比例 。 
由 于 待 传送 的 数据 量 和 每 个 处 理 器 的 计算 量 处 于 同一 数量 级 ， 这 个 算法 的 数据 本 地 性 较 差 。 
Lee 等 提出 另 一 种 形式 ， 其 中 并 发 度 与 物品 的 重量 a 成 比例 。 这 种 形式 的 数据 本 地 性 也 好 得 多 、 
企 这 种 形式 中 物品 的 重量 在 处 理 器 间 划 分 ， 对 于 最 大 为 c 的 不 同 容量 背包 ， 每 个 处 理 器 计算 分 
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配给 自己 的 本 地 重量 所 能 得 到 的 最 大 利润 。 这 个 信息 用 表 来 表示 ， 表 合并 后 将 得 到 全 局 解 。 

试 计算 这 种 形式 的 并 行 运行 时 间 、 加 速 比 以 及 效率 。 比 较 这 个 算法 的 性 能 与 12.2.2 证 讲述 
的 算法 的 性 能 。 

12.3 ”我们 提 到 最 长 公共 子 序列 问题 并 行 形式 的 效率 上 界 为 0.5。 对 于 这 个 问题 ， 采 用 另 
一 种 映射 方法 以 可 得 到 更 高 的 效率 。 试 推导 出 一 种 效率 不 受 此 上 界 约束 的 形式 ， 并 给 出 这 种 
形式 的 运行 时 间 。 

提示 : 考虑 3.4.1 节 中 讲述 的 块 -~ 循环 映射 。 

12.4 [HS78] 旅行 商 问题 (TSP) 定义 如 下 : 给 定 城市 的 集合 及 每 两 个 城市 间 的 距离 ， 
确定 经 过 所 有 城市 的 最 短 旅行 路 线 。 经 过 所 有 城市 的 路 线 是 指 经 过 每 个 城市 一 次 并 回 到 出 发 
点 。 旅 行 的 距离 是 所 有 经 过 的 距离 之 和 。 

这 个 问题 可 用 DP 形 式 求解 。 将 城市 看 作 图 G(V, E) 中 的 顶点 。 将 城市 集 y 用 {y， V2, .Vn } 

表示 ， 并 令 S {vy2, V3,…, vs}。 此 外 令 cij 为 城市 :和 城市 j 间 的 距离 。 如 果 f(5， 人 表示 从 城市 出 
发 ， 经 过 5 中 的 所 有 城市 ， 并 停止 在 城市 ， 央 可 用 下 而 的 递 罗 公 式 计 自 /(5, A): 


a = 要 
(S$S,k) = ， _ 
f mntfS {Kk}), m} + cm s A {Kj} ( 12-9) 


试 根据 公式 (12-9) 导 出 并 行 形式 。 计 算 该 形 式 的 并 行 运行 时 间 和 加 速 比 。 这 个 并 行 形式 是 
成 本 最 优 的 吗 ? 

12.5 [HS78] 考 虚 将 含 O(n) 和 O(m) 个 记录 的 两 个 有 序 文件 的 合并 问题 。 这 些 文件 能 在 时 
间 O(m + n) 内 合并 到 一 个 有 序 文件 中 。 假 设 有 r 个 这 样 的 文件 ， 将 它们 合并 到 一 个 有 序 文件 中 
可 以 表示 成 文件 对 间 的 一 系列 合并 操作 。 合 并 操作 的 整体 成 本 是 合并 序列 的 函数 。 最 优 合并 
顺序 可 用 贪 禁 问 题 来 表示 ， 其 并 行 形式 可 用 本 章 讲述 的 原则 推导 出 。 

试 对 这 个 问题 写 出 递归 公式 。 导出 使 用 p 个 处 理 器 合并 文件 的 并 行 形式 。 计算 并 行 运行 时 
间 及 加 速 比 ， 并 判断 并 行 形式 是 否 为 成 本 最 优 的 。 


-二 


a) 


~---- I 


b) 


图 12-9 a) n 个 设备 串联 的 电路 ;b) 电路 中 的 每 一 级 
有 mi; 个 功能 部 件 ， 共 有 nt 个 串联 的 级 
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12.6 [HS78] 考虑 容错 电路 的 设计 问题 ， 电 路 中 包含 个 串联 设备 ， 如 图 12-9a 所 示 。 如 
果 每 一 个 设备 的 出 错 概 率 为 ， 则 电路 的 总 出 错 概率 为 1-[[G~f) 。 这里， 上 | | 表示 对 指定 
项 的 乘积 。 如 果 将 多 个 功能 设备 在 每 级 并 行 连接 ， 如 图 12-9b 所 示 ， 就 可 以 提高 电路 的 可 靠 性 。 
如 果 电 路 中 第 i 级 有 r; 个 重复 的 功能 部 件 ， 每 个 部 件 的 出 错 概率 为 / ， 则 这 一 级 总 出 错 概率 减 小 
为 *” ， 电 路 的 总 出 错 概率 为 1- [0 -rr*) 。 一 般 情况 下 ， 由 于 物理 原因 ， 某 一 层 的 出 错 概率 


可 能 不 是 *" ， 而 是 某 个 函数 人 (7, , m, )。 问 题 的 目标 是 使 电路 总 出 错 概率 1- 0- 多 (5,m,) 
达到 最 小 。 

使 用 成 本 对 问题 增加 新 的 维 、 如 果 第 ;级 使 用 的 每 个 功能 部 件 的 成 本 为 c ， 则 由 于 成 本 
约束 ， 总 成 本 》crm 应 该 小 于 一 固定 值 c。 

问题 可 从 形式 上 定义 为 


最 小 化 1- | [0-8(i,m)) ,使 得 > cm << 


其 中 , m;>0 有 上 且 0 < i<n、。 
令 有 (xX) 代表 成 本 x 的 i 个 阶段 的 系统 可 靠 性 。 最 优 解 为 f,(c)。f(x) 的 递归 公式 如 下 : 
1 1 一 0 
ji) = ; Tax {bi(mi) fi-1(c — cimi) i> 1 (12-10) 

将 这 种 形式 归 到 四 类 DP 形式 中 的 一 类 ， 并 导出 这 种 算法 的 并 行 形式 。 确 定 它 的 并 行 运行 
时 间 、 加 速 比 以 及 等 效率 函数 。 

12.7 ”考虑 简化 的 最 优 多 边 形 三 角 剖 分 问题 。 这 个 问题 可 定义 如 下 : 给 定 一 简单 多 边 形 ， 
通过 用 弦 连 接 多 边 形 的 顶点 ， 将 多 边 形 分 成 多 个 三 角形 。 这 个 过 程 如 图 12-10 所 示 。 用 顶点 v ， 
vv，,% 构建 三 角形 的 成 本 由 一 个 函数 Flvw , v; , vi ) 定 义 。 对 于 这 个 问题 ， 令 成 本 为 三 角形 的 边 的 
总 长 度 ( 使 用 欧 几 里 得 距离 )。 最 优 多 边 形 三 角 剖 分 问题 将 多 边 形 分 成 多 个 三 角形 ， 使 得 所 有 
三 角形 的 总 长 度 (三 角形 每 个 长 度 之 和 ) 最 小 。 请 对 这 个 问题 给 出 DP 形式 ， 把 它 归 到 四 类 DP 
形式 中 的 一 类 ， 并 对 p 个 处 理 器 推导 出 并 行 形式 。 确 定 它 的 并 行 运行 时 间 、 加 速 比 以 及 等 效率 
函数 。 

提示 : 该 问题 与 最 优 和 矩阵 带 括号 问题 类 似 。 





图 12-10 规则 多 边 形 两 种 可 能 的 三 角 剖 分 
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第 13 章 ”快速 传 里 叶 要 


离散 傅 里 叶 变 换 (DFT) 在 许多 科学 和 技术 应 用 中 发 挥 着 重要 的 作用 ， 如 时 间 序 列 和 波 
形 分 析 、 线 性 偏 微分 方程 求解 、 眷 积 、 数 字 信 号 处 理 以 及 图 像 琵 波 等 。 离 散 傅 里 叶 变 换 是 一 
种 线性 变换 ， 它 把 某 个 周期 性 信号 〈 如 正弦 波 ) 单个 周期 中 的 "个 规则 抽样 点 映射 到 相同 数目 
的 点 上 ， 这 些 扣 表示 这 个 信和 号 的 频谱 。1965 年 ，Cooley 和 Tukey 提 出 一 个 运算 量 为 8(n log nn) 
的 算法 ， 计 算 任 一 n 点 序列 的 离散 健 里 叶 变 换 。 与 过 去 已 知 的 运算 量 为 86(n?) 的 其 他 计算 离散 
传 里 叶 变 换 的 算法 比较 ， 他 们 的 新 算法 有 了 显著 的 改进 。Cooley 和 Tukey 的 这 一 革命 性 的 算法 
及 其 变 体 称 为 快速 传 里 叶 变 换 (Fast Fourier Transform, FFT)。 由 于 它 在 科学 与 工程 领域 的 广 
兴 运 用 ， 在 并 行 计算 机 上 实现 快速 健 里 叶 变 换 一 直 倍 受 关注 。 

快速 傅 里 叶 变换 算法 有 几 种 不 同 的 形式 。 本 章 讨论 它 的 最 简 形式 : 一 维 的 、 无 序 的 和 基 
数 为 2 的 快速 傅 里 叶 变 换 。 更 高 基数 的 、 多 维 的 快速 傅 里 叶 变 换 的 并 行 形式 与 本 章 讨 论 的 简单 
算法 类 似 ， 因 为 所 有 串 行 快速 傅 里 叶 变 换 的 基本 思想 是 一 样 的 。 有 序 的 快速 傅 里 叶 变换 通过 
对 无 序 快速 健 里 叶 变 换 的 输出 序列 使 用 位 反 转 (13.4 节 ) 得 到 。 位 反 转 并 不 影响 快速 传 里 叶 
变换 并 行 实现 的 整体 复杂 度 。 


本 章 讨 论 基 本 算法 的 两 种 并 行 形 式 : 二 进 制 交换 算法 (binary-exchange algorithm) 和 转 


置 工法 〈transpose algorithm ) 。 在 实际 运用 中 ， 根 据 输 入 za 的 大 小 、 进 程 的 数目 p 以 及 内 存 和 网 
络 的 带宽 大 小 ， 这 两 种 算法 中 的 某 一 个 可 能 比 另 一 个 运行 更 快 。 


13.1 串 行 算 法 


考虑 一 个 长 度 为 n 的 序列 X = {X[0], X[1],…, X[n 一 1]}。 序 列 X 的 离散 仁 里 叶 变 换 是 序列 Y = 
{YL0], YI1,…, Yn~1}， 革 中 : 
n—l 
ki 。 
YI = 2 Xlklo ,0O<i<n (13-1) 
在 公式 (13-1) 中 ，w 是 复 平面 上 的 第 n 个 单位 原 根 ; 即 w = e2rY-i1r ，e 是 自然 对 数 的 底数 。 
更 一 般 地 说 ， 公 式 中 w 的 固 可 看 作 是 以 模 为 4 的 整数 有 限 交 换 环 的 元 素 。 在 快速 伟 里 叶 变 换 计 
算 中 用 到 的 w 的 短 也 称 为 旋转 因子 (twiddle factor)。 : 
按照 公式 (13-1) 计 算 每 个 YI 时 需要 进行 n 步 复数 乘法 运算 。 因 此 ， 计 算 整 个 长 度 为 x 的 序 
列 Y 的 申 行 复杂 度 为 8(n”)。 下 面 要 讲 的 快速 侍 里 叶 变 换算 法 将 这 一 复杂 度 降 至 8@(n log nn)。 
假设 "是 2 的 笑 。 快 速 傅 里 叶 变 换算 法 通过 下 面 步 又 把 一 个 "点 的 离散 傅 里 叶 变 换 计 算 分 烈 
成 两 个 (n/2) 点 的 离散 健 里 叶 变 换 计算 : 
(n/2)—1 {(n/2)—1 
YI] = 2 XI2kwx 十 2 XI2k + Hotty 
k=0 = 
(n/2)—1 l (a/2)~1 


并 
k=0 k=0 


| 


Cn 


心 ] 
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(n/2)—1 (n/2)~] 
一 >》 X[2k]e VKi/(n/2) 十 ww >》 X[2k 十 lJes* VKi/(n/2) 


( 13-2) 


令 @=exmins =w?; 就 是 说 ， 避 是 第 (n/2) 个 单位 原 根 。 因 此 我 们 可 以 把 公式 (13-2) 重 
写成 如 下 形式 : 


(n/2)—1 (n/2)—1 
Y[il] = XI[2k]O” + ow X[2k+ 1]w” 
"9 2 2 (13-3) 


在 公 却 (13-3) 中 ， 右 端的 两 个 求 和 分 别 是 对 (nm/2) 点 的 离散 传 里 叶 变换 计算 。 若 ?是 2 的 割 ， 
可 类 似 地 把 每 个 这 样 的 离散 传 里 叶 变换 计算 用 递归 的 方式 分 成 更 小 的 计算 。 这 就 得 到 算法 13-1 
所 给 出 的 递归 FFT 算 法 。 这 个 快速 傅 里 叶 变换 算法 称 为 基数 为 2 的 算法 ， 因 为 每 次 递归 时 都 把 
输入 序列 分 为 两 等 分 。 


算法 13-1 递归 的 一 维 、 无 序 和 基数 为 2 的 FFT 算 法 ， 其 中 w = e2zv-i" 


procedure RFFT(X, Y, n, w) 

if (n = 1) then Y{0] := X{0] else 

begin 
RFFTC(XI[O], X[2],..... Xn Cm 2), (QF0], Of),..., Q[n/2)), n/2, 0"); 
RFFT(X[1), X{3],..., X[n — 1}), (TEO}, TE1],..., Tn/2]), n/2, @2): 
fori:=0ton—ldo 

Y[i} := Qfi mod (n/2)] + wiT{i mod (n/2)): 
”end R_FFT 
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图 13-1 说 明 如 何 用 这 个 递归 算法 对 8 点 的 序列 进行 计算 。 如 图 所 示 ， 对 应 于 算法 13-1 中 第 7 
行 的 第 一 组 计算 发 生 在 递归 的 最 深层 。 在 这 一 层 中 ， 序 列 中 下 标的 差 为 /2 的 元 素 被 用 于 计算 
中 。 在 每 个 子 序列 的 层 中 ， 用 于 计算 的 元 素 的 下 标 差 碱 小 一 半 。 图 中 也 显示 出 每 步 计算 中 的 
等 。 

计算 快速 傅 里 叶 变 换算 法 时 ， 输 入 序列 的 大 小 在 递归 的 每 一 层 减 小 一 半 〈 见 算法 13-1 的 
第 4、5 行 )。 因 此 ， 对 一 个 长 度 为 n 的 初始 序列 来 说 ， 递 归 的 层 数 最 多 为 Iog n。 在 递归 的 第 m 
层 ， 共 计算 了 2" 个 每 个 大 小 为 mw2” 的 快速 传 里 叶 变换 。 因 此 每 层 的 算术 运算 ( 见 第 7 行 ) 的 总 
次 数 是 B(n)， 而 整个 申 行 算法 的 复杂 度 为 9(n iog n)。 

这 种 串 行 快速 传 里 叶 变换 也 可 用 和 迭代 的 方式 计算 。 和 迭代 形式 的 并 行 实现 比较 容易 表述 。 
因此 ， 在 描述 并 行 快 速 传 里 叶 变 换算 法 之 前 ， 我 们 先 给 出 串 行 算法 的 和 迭代 形式 。 迁 代 快 速 全 
里 叶 变 换 通 过 计算 每 个 递归 层 ， 从 最 深层 开始 进行 迭代 导出 。 算 闪 13-2 给 出 对 nn 点、 一 维 、 无 
序 和 基数 为 2 的 快速 储 里 叶 变 换 的 经 典 的 迭代 Cooley-Tukey 算 法 。 程 序 将 第 5 行 开始 的 外 层 循 
环 选 代 log n 次 。 迭 代 算 法 中 循环 下 标 m 的 值 对 应 于 递归 算法 中 第 (log n-m) 层 递归 (图 13-1)， 
正如 在 递归 中 的 每 一 层 一 样 ， 每 个 迭代 执行 x 次 复数 的 乘法 和 加 法 。 

算法 13-2 有 两 个 主 循环 。 始 于 第 5 行 的 外 层 循环 对 n 点 的 串 行 快 速 传 里 叶 变 换 执行 log n 次 ， 
而 始 于 第 8 行 的 内 层 循 环 在 外 层 循环 的 每 次 迭代 中 执行 x 次 。 内 层 循 环 的 所 有 运算 都 是 固定 时 
间 长 度 的 算术 运算 。 因 此 ， 本 算法 的 串 行 时间 复 杂 度 为 Blna log n)。 在 外 层 循环 每 次 迭代 时 ， 





序列 R 都 用 前 一 次 迭代 中 储存 在 序列 S 中 的 元 素 更 新 。 第 一 次 迭代 时 的 输入 序列 X 作 为 初始 序列 
R。 最 终 迭 代 的 更 新 序列 R 即 为 所 要 求 的 传 里 叶 变 换 ， 并 复制 到 输出 序列 y 中 ， 


DNAODO- 


XI[0] X[i X[2] Xf3] X[4] X[5] XI6] XI7] 顶层 
[0] [2] (4] [6] [1] [3] [$5] 07] 第 一 递归 层 
4 2 5 ol 第 二 递归 屋 
[4 2 9 [1] 05] [3] [7] 第 二 递归 层 


WA Wy 


(00 4 WI 04 Wo 04 00 4 

[0j [4] [2] [6) [U [5] [3] [7] 返回 到 第 二 层 
@ 04 02 06 00 04 02 ws 
[0] [2 5 {6] [JJ {3] 6 D 返回 到 第 一 层 


(00 @ 06 Ol 05 03 07 
Y[0 YI Y[2] Y[3] Y[4] Y[$] Y[f6] Y[7] 返回 到 顶 是 


图 13-1 递归 的 8 点 无 序 的 FFT 计 算 


算法 13-2 ”Cooley-Tukey 的 一 维 、 无 序 和 基数 为 2 的 FFT 算 法 ， 其 中 心 = ein 
procedure ITERATIVE FFT(X, Y, n) 


begin 
r := logn; 
for i := 0 ton — 1 do R[i] := Xfil: 
form :=0tor 一 1do /* Outer loop */ 
begin 


for i :=0 ton ~ 1 do S[i] := RI[il: 
fori :=0ton ~ 1 do /*Inner loop*/ 
begin | 


fF Let (bob!1 :br-1) be the binary representation of i */ 


J := (bo...bm-10bm+!1 bb.-1); 

k := (bo...bm-_ilbm+! 四) 

R[i] := S[j] + S[k] x wbmbm-1…bo0-..0). 
endfor; /* Inner loop */ 


endfor; /* Outer loop */ 
fori :=0ton 1dor[il := RIi]j: 
end ITERATIVE FFT 


COO 
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算法 13-2 第 12 行 执行 本 算法 的 一 步 关键 操作 : 用 5S 中 和 S[AJ 更 新 R[i]。 下 标 j 和 k 通 过 下 述 步 
最 从 i 中 得 到 : 假设 a = 2"。 由 于 0 < i < n，i 的 二 进 制 表示 有 r 位 。 令 (bobi … b,_1) 为 下 标的 二 进 
制 表示 。 在 外 层 循 环 (0 < m < 7) 的 第 m 次 迭代 中 ， 下 标 j 在 置 的 第 m 个 最 高 有 效 位 ( 即 b,) 为 0 
时 产生 。 下 标 k 在 置 b, 为 1 时 产生 。 因 此 ，j 和 和 k 的 二 进 制 表示 仅 在 于 它们 的 第 m 个 最 高 有 效 位 不 
同 。 在 i 的 一 进 制 表示 中 ，b。 非 0 即 1。 因 此 j 和 k 这 两 个 下 标 至 少 有 一 个 与 下 标 ;: 相 同 ， 这 取决 于 
bm 为 0 还 是 1。 在 外 层 循 环 的 第 m 次 迭 代 中 ， 对 每 个 在 0 到 n-1 间 的 i， 将 5S[ij 和 另 一 个 下 标 仅 与 i 
企 最 高 有 效 位 上 不 同 的 另 一 $ 的 元 素 值 代入 算法 13-2 第 12 行 ， 执 行 后 得 到 R[i]。 图 13-2 说 明 当 
n= 16 时 这 些 元 素 的 配对 模式 。 
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™ WASRR ~ 
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图 13-2 16 点 无 序 FFT 计 算 中 输入 序列 及 中 间 结果 序列 元 素 的 组 合 模式 


13.2 二 进 制 交换 算法 


本 市 讨论 在 并 行 计算 机 上 实现 快速 伟 里 叶 变 换 的 二 进 制 交 挨 算 法 。 首 先 ， 由 划分 输入 或 
输出 向 量 导 入 一 个 分 解 。 因 此 ， 每 个 任务 从 输入 向 量 的 一 个 元 素 开始 ， 来 计算 输出 的 对 应 元 
素 。 若 指定 每 个 任务 的 标号 与 其 输入 或 输出 元 素 下 标 相 同 ， 则 在 算法 log 7 次 和 迭代 的 每 一 次 选 
代 中 ， 数 据 交 换 出 现在 标号 仅 相差 一 位 的 一 对 任务 之 间 。 





13.2.1 全 带宽 网 络 

在 本 小 市 ， 我 们 介绍 二 进 制 交 换算 法 在 并 行 计算 机 上 的 实现 。 这 种 并 行 计算 机 对 p 个 并 行 
进程 可 用 的 对 分 带宽 为 8(p)( 见 2.4.4 市 )。 由 于 在 并 行 快速 伟 里 叶 变 换 中 ， 任 务 间 的 交互 模式 
与 超 立 方 体 网 络 中 的 模式 是 匹配 的 ， 我 们 描述 算法 时 采用 这 样 一 种 互连网 络 。 然 而 ， 在 其 他 
任何 整体 同时 数据 传输 容量 为 0(p) 的 并 行 计算 机 上 ， 这 种 性 能 和 可 扩展 性 的 分 析 是 有 效 的 ， 

1. 每 个 进程 一 个 任务 

我 们 先 来 考虑 将 一 个 任务 简单 地 映射 到 每 个 进程 上 。 图 13-3 说 明 当 n = 16 时 ， 采 用 二 进 制 
交换 算法 的 这 种 映射 方式 导致 的 交互 模式 。 如 图 所 示 ， 进 程 i (0 < i < nn) 开 始 时 储存 X[i] ， 最 后 
生成 ZE。 在 外 层 循 环 log m" 次 揭 代 的 每 次 迭代 中 ， 进 程 P, 通过 执行 算法 13-2 第 12 行 来 更 新 RD] 
的 值 。 全 部 "个 更 新 都 是 并 行 执行 的 。 


m=0 m= 1 m= 2 


Se 


i We jp Ns XX < 2 
‘xm @ 1 ~e Yn Bp 


XXX 


rr 


ee J J i. 
i / A SEE 页 扫 汪 i 


图 13-3 对 16 个 进程 的 16 点 无 序 快速 储 里 叶 变 换 。 
Pi 表示 标号 为 的 进程 
为 了 实现 更 新 , 进程 P; 需 要 从 一 个 进程 标号 与 : 仅 差 一 位 的 进程 中 , 得 到 序列 5 的 一 个 元 素 。 
回忆 住 超 立 方 体 中 ， 一 个 节点 与 那些 标号 仅 与 自己 差 一 位 的 节点 相连 。 因 此 并 行 快 速 傅 里 叶 
变换 计算 自然 地 映射 到 有 着 一 对 一 进程 对 节点 映射 的 超 立 方 体 中 。 在 外 层 循环 的 第 一 次 选 代 
中 ， 每 对 进行 通信 的 进程 的 标号 仅 在 最 高 有 效 位 上 不 同 。 比 如 ，Po 到 P; 分 别 与 P; 到 P,, 通 信 。 
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类 似 地 ， 在 第 二 次 迭代 中 ， 每 对 进行 通信 的 进程 的 标号 仅 在 次 高 有 效 位 上 不 同 ， 依 此 类 推 。 

在 本 算法 的 log “次 和 迭代 中 ， 每 个 进程 都 要 进行 复数 的 乘法 和 加 法 ， 并 且 要 与 另 一 进程 区 
换 复数 。 这 样 ， 每 次 迭代 中 都 要 完成 固定 量 的 工作 。 因 此 在 有 nn 节点 的 超 立 方 体 上 并 行 执行 算 
法 的 时 间 复 杂 度 是 8(log n)。 这 种 超 立 方 体 上 的 快速 仁 里 叶 变 换 形式 是 成 本 最 优 的 ， 因 为 它 的 
进程 -时 间 乘 积 为 B(a log n)， 这 与 串 行 的 x 点 快速 伟 里 叶 变 换 的 复杂 度 相 同 。 

2. 每 个 进程 多 个 任务 

我 们 现在 考虑 将 n 点 快速 依 里 叶 变 换 的 a 个 任务 映射 到 p 个 进程 ， 其 中 n > p。 为 简单 起 见 ， 
我 们 假设 x 和 p 都 是 2 的 守 ， 即 n = 2’,p = 2<。 如 图 13-4 所 示 ， 将 序列 划分 成 wP 个 邻接 的 元 素 块 ， 
并 对 每 个 进程 分 配 一 块 。 


-小 
0000 X[O] < 一 Y[0] 
00 ] X[1] A AZS 7 Y[1] 
X[2] Y[2] 
bw VSOE yy 


| 
ED 
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oo x 1 。 
AS wo 马 


oy xl 人 ya 
/_\// NA, 


1110  X[14] ~ Y[14] 
\/ 人 人 
1111 X[15] / / NAN -一 一、 Y[15] 
- 上 


图 13-4 对 4 个 进程 的 16 点 快速 传 里 时 变换 

注 : P 表示 标号 为 的 进程 。 一 般 情 况 下 ， 进 程 数 p = 24， 输 入 序列 长 度 n = 2r。 
图 13-4 所 示 的 映射 有 一 个 有 趣 的 特性 : 车 (bob! … bi) 为 任 一 i (0 <i < n) 的 二 进 制 表 示 ， 则 
R[ 和 3 映射 到 标号 为 (bo … bu-) 的 进程 。 也 就 是 说 ， 序 列 的 任意 元 素 下 标的 d 个 最 高 有 效 位 
征 元 素 所 在 进程 的 标号 的 二 进 制 表 示 。 在 决定 并 行 计算 机 上 执行 快速 傅 里 叶 变 换 的 通信 量 时 ， 


uD 





_ #%i erz 直 “= 


这 -一 映射 的 特性 起 着 重要 的 作用 。 

图 13-4 显 示 ， 下 标的 d(=2) 个 最 高 有 效 位 不 同 的 元 素 映射 到 不 同 的 进程 。 但 是 ， 所 有 下 标 
县 有 相同 d 个 最 高 有 效 位 的 元 素 映 射 到 同一 进程 。 回 忆 前 一 他， 一 个 “点 的 快速 传 里 时 变换 需 
要 进行 r = log n 次 外 层 循环 迭代 。 在 循环 的 第 m 次 检 代 中 ， 下 标 第 m 个 最 高 有 效 位 不 同 的 元 素 
被 组 合 。 这 样 ， 在 前 d 次 运 代 中 组 合 的 元 素 分 属 不 同 的 进程 ， 而 在 后 (六 办 次 迭代 中 组 合 的 元 
素 对 属于 同一 进程 。 因 此 ， 这 种 并 行 快 速 傅 里 叶 变换 算法 仅 需 在 log ?次 和 迭代 的 前 d = log p 次 
迭代 中 进行 进程 则 交互 。 在 后 (r-d 次 迭代 中 没有 交互 。 更 进一步 说 ， 在 前 4 次 返 代 的 第 ;次 选 
代 中 ， 一 个 进程 所 需 的 元 素 全 部 来 自 另 外 一 个 进程 ， 这 个 进程 标号 的 第 ;个 最 高 有 效 位 与 其 不 
辣 。 

每 个 交互 操作 交换 n/p 字 的 数据 。 因 此 ， 整 个 算法 的 通信 时 间 花 费 为 ,log p + t, (n/p)log P。 
在 log ?次 迭代 的 每 一 次 ， 进 程 都 更 新 R 中 mp 个 元 素 。 若 一 个 复数 乘法 和 复数 加 法 需 时 为 k ， 
则 对 p 方 扩 超 立方 体 网 络 的 a 点 快速 什 里 叶 变 换 的 二 进 制 交 换算 法 的 运行 时 间 为 





， 
Tp = ts logn+ilogp +t logp (13-4) 


进程 -时 间 乘 积 为 km log n + sp log p + twn log p。 要 使 该 并 行 系统 达到 成 本 最 优 ， 这 个 乘 
积 应 是 O(n log 由， 即 为 快速 傅 里 叶 变换 算法 的 串 行 时 间 复 杂 度 。 这 对 于 P& nn 是 成 立 的 。 
加 速 比 和 效率 的 表达 式 由 下 面 的 式 子 给 出 : 
大 ilog7m 
$ = 
pnlogn z 
nlogn + (is/tc)p logp + (tw/tonlogp 


E=— 1 (13-5) 
1 + (tsp log p)/(ten logn) + (tw log p)/(tclogn) | 


3. 可 扩展 性 分 析 
由 13.1 市 可 知 ， 一 个 n 点 快速 传 里 叶 变 换 的 问题 规模 W 为 


WwW =nlogn ( 13-6 ) 


因为 一 个 4 点 快速 传 里 叶 变 换 可 以 最 多 利用 如 图 13-3 所 示 上 映射 的 x 个 进程 ， 只 要 n> p 或 
n log 2>P log p 驶 可 保证 进程 p 繁 忙 。 因 此 ， 由 于 并 发 性 ， 这 一 并 行 快速 体 里 叶 变 换算 法 的 等 
效率 隐 数 为 Q&(p log p)。 现在 我 们 来 推导 基于 不 同 通信 相关 项 的 二 进 制 交换 算法 的 等 效率 函数 。 
将 公式 (13-5) 重 写 为 z 
tsplogp | ‘viogp 1-E 


tcnlogn tlopgn FE 





为 了 达到 某 个 固定 的 效率 已 ， 表 达 式 (4P log p) / (ten log n) + (log p) / (i.1og nn) 必须 等 于 


前 数 1/K， 其 中 K = E/(1~E)。 这 样 定义 常数 K 是 为 了 与 第 5 章 在 术语 上 保持 一 致 。 如 在 5.4.2 节 


那样 ， 我 们 用 近似 方法 得 到 等 效率 函数 的 近似 表达 式 。 先 决定 关于 p 的 问题 规模 的 增长 率 ， 使 
得 与 有关 的 项 成 为 常数 。 为 此 ， 假 设 w = 0。 这 样 保证 固定 效率 E 的 条 件 变 成 下 面 的 形式 : 
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fplogp 1 
tanlogn Kk 
nlogn = KSplogp 
tc 
ls 
W = Kplogp (13-7) 


公式 (13-7) 给 出 由 于 来 自 交互 延迟 时 间或 消息 启动 时 间 的 开销 的 等 效率 函数 。 
类 似 地 可 以 得 到 包含 由 于 来 自 4 的 开销 的 等 效率 函数 。 假 设 1, = 0， 则 固定 效率 E 要 求 下 式 
得 到 满足 : 





tuvlogp 1 
tclogn Kk 
i 
logn = K—logp 
tc 
i 
nlogn = Kp /logp 
Cc 
lv 下 fu 
一 民 一 座 cl1 
W pd ogp (13-8) 


五 项 Ki /tc 小 于 1， 则 公式 (13-8) 所 需 的 问题 规模 增长 率 也 小 于 BC log p)。 此 时 ， 公 式 
(13-7) 人 确定 并 行 系统 的 整体 等 效率 函数 。 然 而 ， 若 Kt /it. 大 于 1， 则 公式 (13-8) 确 定 并 行 系统 的 
整体 等 效率 函数 ， 并 且 大 于 由 公式 (13-7) 给 出 的 BC log p) 的 等 效率 函数 。 

对 本 算法 ， 渐 进 等 效率 函数 依 束 于， 和 i 的 相关 值 。 其 中 ，K 是 保证 效率 E 的 增 函 数 ， 
r 依赖 于 并 行 计算 机 的 通信 带宽 ，t. 依 赖 于 处 理 器 的 运算 速度 。 等 效率 函数 的 量 级 依赖 于 预期 
的 效率 E 和 硬件 相关 参数， 这 是 快速 储 里 叶 变 换算 法 的 特别 之 处 。 事 实 上 ，Ki,/t. = 1 ( 即 
1A1-E) = t/t ， 或 E = IAt + 1 )) 时 对 应 的 效率 可 看 作 是 一 种 阀 值 。 对 于 固定 的 t. 和 + ， 很 
容易 得 到 接近 阐 值 的 效率 。 对 E < 1. A(t + t,)， 渐 进 等 效率 函数 为 6(p log p)。 远 高 于 阔 值 1. /Cr 
+ tw ) 的 效率 仅 在 问题 规模 极 大 时 可 能 达到 。 这 是 由 于 在 这 些 效 率 时 ， 其 渐进 等 效率 函数 是 
6 /log p)。 下 面 的 例子 显示 Kt Wt 的 值 在 等 效率 函数 中 的 作用 。 


例 13.1 二 进 制 交 换算 法 中 国 值 的 影响 


考虑 一 个 超 立 方 体 ， 给 定 硬 件 参 数 的 相关 值 为 k = 2、t。= 4、1, = 25 时 。 用 这 些 值 ， 可 得 
国 值 效率 上 /(K + 1 ) 为 0.33。 

现在 来 看 对 于 在 超 立 方 体 上 保持 某 些 低 于 或 高 于 阅 值 的 效率 ， 二 进 制 交换 算法 的 等 效率 
的 数 。 算 法 由 于 并 发 的 等 效率 函数 为 p log p。 从 公式 (13-7) 和 (13-8) 知 ， 与 开销 函数 中 的 t, 和 上 
相关 的 等 效率 函数 分 别 是 K(1, /i.)plogp 和 六 (1 11.)prr'r logP 。 为 保证 某 一 给 定 的 效率 已 ( 即 
给 定 的 K)， 整 体 等 效率 函数 由 下 式 给 出 : - 


t t 
W = max{p log p, Kp log p, Kp he log p} 
c C 


图 13-5 显 示 当 EE = 0.20, 0.25, 0.30, 0.35, 0.40 和 0.45 时 这 个 函数 的 曲线 。 从 图 中 看 出 ， 对 于 
直到 国 值 的 效率 ， 各 等 效率 曲线 是 等 距 的 。 为 了 维持 阔 值 之 上 的 效率 ， 问题 规模 需要 大 大 地 
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增加 。E = 0.20，0.25，0.30 时 的 新 进 等 效率 国 数 为 BCp log p)。E = 0.40 时 的 狐 进 等 效率 图 数 
为 BCp133log p)， 而 E = 0.4S 时 为 LpLelog p)。 


200000 
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图 13-5 E 取 不 同 值 时 超 立方 体 上 二 进 制 交换 算法 的 
等 效率 消 数 ， 给 定 1. = 2，1,=4, 1,=25 
图 13-6 显 示 同 样 硬件 参数 条 件 下 ， 在 256 节 点 超 立 方 体 上 的 点 快速 侍 里 叶 变 换 的 效率 曲 
线 。 效 率 E 对 于 不 同 的 n 值 由 公式 (13-5) 计 算 ， p 取 256。 由 图 可 见 ， 效 率 最 初 随 问 题 规模 增加 ”[547 
而 快速 增加 ， 但 效率 曲线 在 益 值 后 就 变 平 直 了 。 加 
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图 13-6 7 所 快速 傅 里 叶 变换 在 256 节 点 超 立 方 体 上 二 进 制 交换 算法 的 
效率 曲线 ， 给 定 上 = 2, 1 =4, 1t, = 25 


例 13.1 表 明 ， 对 于 合理 的 问题 规模 来 说 ， 效 率 是 有 限制 的 ， 这 种 限制 取决 于 并 行 计算 机 的 
CU 速度 和 通信 带宽 的 比率 。 可 以 通过 增加 通信 通道 带宽 来 提升 效率 限制 。 然而， 仅仅 提高 
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CPU 的 速度 而 不 增加 通信 通道 带宽 只 会 降低 效率 限制 。 因 此 ， 在 通信 和 计算 速度 不 平衡 的 并 
行 计算 机 上 运行 时 ， 二 进 制 交换 算法 性 能 不 佳 。 若 硬件 在 这 两 者 上 平衡 的 话 ， 本 算法 将 是 可 
扩展 的 ， 并 且 当 按照 8w log p) 的 速度 增加 问题 规模 时 ， 可 以 保持 合理 的 效率 。 


13.2.2 有 限 带 宽 网 络 


下 面 我 们 讨论 如 何在 交叉 段 带宽 小 于 BCp) 的 并 行 计算 机 上 实现 二 进 制 交换 算法 。 我 们 选 
用 格 网 互连网 络 来 表示 算法 及 其 性 能 特征 。 假 定 将 个 任务 映射 到 运行 于 具有 Pp 行 和 Vp 列 
的 格 网 中 的 p 个 进程 上 ，Vp 是 2 的 整数 次 寡 。 令 a = 2，P = 24。 另 外 假设 进程 按 行 标号 ， 而 且 
数据 的 分 布 方式 与 超 立 方 体 上 的 一 致 ， 即 下 标 为 (ob .… b,_1) 的 元 素 映射 到 标号 为 (bo … bs1) 的 
进程 上 。 

与 在 超 立 方 体 中 一 样 ， 标 号 仅 有 一 位 不 同 的 进程 之 间 在 最 初 的 log p 次 迭代 中 进行 通信 。 
与 超 立 方 体 不 同 之 处 在 于 ， 通 信 的 进程 间 并 不 直接 链接 在 格 网 中 。 因 此 消息 通过 多 级 链 路 传 
递 ， 并 且 在 同一 链 路 上 会 发 生 消息 的 重 玻 。 图 13-7 显 示 在 64 节 点 格 网 中 计算 快速 储 里 叶 变 换 
时 进程 Oo 和 37 收 发 的 消息 。 如 图 所 示 ， 进 程 0 与 进程 1、2、4、8、16、32 通 信 。 注 意 这 些 进程 
都 与 进程 0 处 在 相同 的 行 或 列 。 进 程 1、2、4 与 进程 0 处 于 同一 行 ， 距 离 分 别 为 1、2、4。 进 程 8、 
16、32 与 进程 0 处 于 同一 列 ， 距 离 也 分 别 为 1、2、4。 更 精确 地 说 ， 在 需要 通信 的 log p 个 步骤 
的 log Vp 步 中 ， 通 信 的 进程 处 在 同一 行 ， 在 余下 的 log Vp 步 中 ， 它 们 处 在 同一 列 。 共 享 至 少 
一 条 链 路 的 消息 数目 等 于 每 个 消息 经 过 的 链 路 数 (习题 13.9) ， 因 为 在 一 给 定 的 快速 传 里 叶 变 
换 和 迭代 中 ， 所 有 进行 通信 和 的 节点 对 都 经 过 相同 数量 的 链 路 交换 消息 。 

在 同一 行 或 一 列 中 的 通信 进程 间 的 距离 从 1 增加 到 Vp /2 个 链 路 ，logVp 次 迭代 的 每 一 次 
都 倍增 。 这 对 格 网 中 的 所 有 进程 都 是 一 样 的 ， 如 图 13-7 中 所 示 的 进程 37。 这 样 ， 花 费 在 按 行 
通信 的 时 间 总 量 是 Do (+4(n/p)2") 。 在 列 上 花费 的 时 间 也 一 样 。 我 们 曾 假设 一 次 复数 乘 
法 和 加 法 运算 的 耗 时 为 上 。 由 于 在 log n 次 迭代 的 每 个 迭代 中 一 个 进程 执行 n/p 次 这 样 的 计算 ， 
总 体 并 行 运行 时 间 由 下 式 给 出 : 


d/2-1 
Tp to logm 十 2 》 (。 十 22m 
Pp m=0 P 


n n 
fe logn+2 (4 log Vp 十 tw (VP 一 Dj 


2 


n n 
te logn + it log p 十 21 一 一 


VP ( 13-9) 
加 速 比 和 效率 由 下 式 给 出 : 

_ inlogn 
$ 一 一 

加 pnlogn 

nlogn + (t/t)plogp+2(tw/ic)nVP 

l 

E = 


l + (tsplog p)/(tcn logn) + 2(tw VP)/(te logn) (13-10) 


这 个 并 行 系统 的 进程 -时 间 乘积 为 fn log n + sp log p + 2twnVp 。 要 达到 成 本 最 优 ， 则 该 
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乘积 应 该 为 O(n log n)， 在 Wp = O(log 由 或 JP = O(log?n) 时 获得 这 个 结果 。 由 于 在 公式 (13-9) 中 与 
t, 相 关 的 通信 项 与 在 超 立方 体 中 的 一 样 , 对 应 的 等 效率 函数 还 是 由 公式 (13-7) 中 给 出 的 8@(p log p)。 
通过 进行 与 13.2.1 节 中 一 样 的 等 效率 分 析 ， 可 以 证 明 与 t, 项 相关 的 等 效率 函数 为 2K(1, /1.) 
22kwwioz Jp (习题 13.4)。 给 定 这 一 等 效率 函数 ， 为 维持 某 一 效率 值 不 变 ， 问 题 规模 必须 以 
指数 级 增长 。 因 此 快速 侍 里 叶 变 换 的 二 进 制 交换 算法 在 格 网 上 的 可 扩展 性 不 佳 。 
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图 13-7 64 进程 的 逻辑 方 阵 格 网 上 进行 快速 传 里 叶 变换 时 的 数据 通信 。 
图 中 显示 与 标号 为 0 和 37 的 进程 交换 数据 的 所 有 进程 


格 网 上 的 二 进 制 交 换算 法 的 通信 开销 无 法 通过 采用 到 进程 的 不 同 的 映射 序列 来 减少 。 在 
任何 映射 中 ， 都 至 少 有 一 次 迭代 ， 其 中 一 对 相互 通信 的 进程 相距 至 少 Jp/12 条 链 路 (习题 13.2 )。 
该 算法 本 身 要 求 在 p 节 点 整体 的 对 分 带宽 为 8(p)， 而 在 对 分 带宽 为 68(p ) 的 二 维 格 网 型 这 样 的 [55 
体系 结构 中 ， 通 信 时 间 不 可 能 渐 近 地 好 于 上 面 讨论 的 1,1og p + 2(n/Vp)t,。 550 
13.2.3 并 行 快速 傅 里 叶 变 换 中 的 额外 计算 


到 目前 为 止 ， 我们 讨论 了 超 立 方 体 和 格 网 上 的 快速 伟 里 叶 变 换 的 并 行 形式 ， 也 讨论 了 在 
这 两 种 体系 结构 上 考虑 到 通信 开销 后 的 性 能 和 可 扩展 性 。 本 节 我 们 讨论 可 能 在 并 行 快速 傅 里 
叶 变 换 实现 中 出 现 的 另 一 种 开销 。 

回忆 算法 13-2 第 12 行 中 5 的 一 个 元 素 与 。 (旋转 因子 ) 的 一 个 咎 相 乘 的 计算 步骤 。 对 m 点 的 
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快速 傅 里 叶 变换 来 说 ， 第 12 行 在 串 行 算法 中 要 执行 alog n 次 。 但 是 ， 在 整个 算法 中 用 到 了 只 有 
wo 的 z 个 不 同 的 寡 次 〈( 即 四 ，w，…，owr)。 所 以 ， 有 些 旋 转 因 子 被 重复 使 用 。 在 串 行 算法 的 
实现 中 ， 可 以 在 执行 主 算法 前 预先 把 ”个 旋转 因子 算 好 ， 并 保存 起 来 。 这 样 计算 旋转 因子 就 只 
需 @(n) 次 复数 运算 ， 而 不 再 是 在 每 次 迭代 时 都 要 计算 所 有 旋转 因子 所 需 的 Bl(n log n) 次 运算 。 

在 并 行 算法 实现 中 计算 旋转 因子 的 工作 量 无 法 缩减 到 8B(n) 步 。 因 为 即便 某 旋转 因子 被 重 
复 使 用 ， 它 可 能 是 不 同时 间 在 不 同 的 进程 使 用 的 。 车 同样 规模 的 快速 传 里 叶 变 换 是 在 相同 数 
目的 进程 中 计算 ， 那 么 进程 的 每 步 计算 都 要 相同 的 旋转 因子 集 。 在 此 情况 下 ， 旋 转 因 子 可 以 
预先 计算 并 储存 起 来 ， 其 计算 开销 可 以 在 相同 规模 的 快速 傅 里 叶 变换 所 有 实例 的 执行 中 分 捧 。 
但 是 ， 如 果 只 考虑 快速 健 里 叶 变 换 的 一 个 实例 ， 则 旋转 因子 的 计算 增加 了 整个 并 行 实现 的 额 
外 开销 ， 因 为 它 比 串 行 算法 要 进行 更 多 的 整体 运算 。 

例如 ， 考 虑 一 个 8 点 快速 传 里 叶 变 换 三 次 迭代 中 所 用 ow 的 不 同 的 寡 。 在 算法 第 5 行 开 始 的 循 
环 的 第 关 和 迭代 中 ， 对 所 有 KO<E < 站 都 要 计算 必 ， 其 中 [是 通过 反 转 ;的 第 m-1 最 高 有 效 位 的 顺序 
并 在 右边 填充 log n-(m +1) 个 0 而 得 到 的 (关于 ! 的 推导 请 参见 图 13-1 及 算法 13-2)。 表 13-1 说 明 
一 个 8 点 快速 侍 里 叶 变 换 的 所 有 i 和 m 的 值 所 需要 w 的 窜 的 二 进 制 表示 。 

表 13-1 8 点 快速 傅 里 叶 变 换 中 不 同 选 代 所 需 w 的 需 次 的 二 进 制 表 示 ( 另 见 图 13-1)。 
m 的 值 是 外 层 循环 的 挝 代号 ，ij 是 算法 13-2 中 内 度 循 环 的 索引 


{ 


0 1 2 3 4 5 6 7 
m=0 000 000 000 000 100 100 100 100 
m= ] 000 000 100 100 010 010 110 110 
m=2 000 100 010 110 001 101 011 111 


大 使 用 8 个 进程 ， 则 每 个 进程 计算 和 使 用 表 13-1 中 的 一 列 。 进 程 0 在 其 所 有 和 迭代 中 只 计算 
一 个 旋转 因子 ， 而 有 些 进程 〈 本 例 中 是 其 他 2 ~ 7 进程 ) 每 三 次 和 迭代 就 要 计算 一 个 新 的 旋转 因 
子 。 若 P = n/2 = 4， 则 每 个 进程 要 计算 表 中 连续 的 两 列 。 这 时 最 后 的 进程 计算 表 中 最 后 两 列 的 
旋转 因子 。 因 此 ， 最 后 的 那个 进程 总 共 要 计算 4 个 不 同 的 矫 : mm = 0(100) 和 m = 1(110) 各 一 个 ， 
m = 2 两 个 (011 和 111)。 哩 然 不 同 的 进程 可 以 计算 不 间 数 量 的 旋转 因子 ， 但 额外 工作 的 总 开销 
问 p 与 任何 单个 进程 计算 的 旋转 因子 的 最 大 数目 的 乘积 成 正 例 。 令 h(n, p) 是 n 点 快速 傅 里 叶 谈 
换 的 p 个 进程 计算 的 旋转 因子 的 最 大 数目 。 表 13-2 列 出 h(8, p) 在 p = 1、2、4、8 时 的 值 。 表 中 
也 列 出 任 一 进程 在 每 次 迭代 中 最 多 要 计算 的 新 旋转 因子 的 数目 。 


表 13-2 ”8 点 快速 傅 里 时 变换 计算 每 次 选 代 中 任 一 进程 所 用 的 ww 新 的 午 次 的 最大 数目 
p=1 p=2 p=4 p=8 


一 一” 


o | 全 ho io 
人 hb 心 
[2 


OO 
羡 数 h 由 下 面 的 递归 关系 (习题 13.5) 定义 : 
h(n,1)=n 
h(p, p) = logp (pA1) 
h(n, p) = h(n,2p)+n/p—!1 (pAl1,n> p) 





对 p > 1 且 n>p， 上 述 递 归 关 系 的 解 是 
h(n, p) = 2 (2 一 1) +logp 
p 


这 样 ， 若 计算 一 个 旋转 因子 需 时 tt ， 那 么 一 个 进程 为 了 计算 旋转 因子 至 少 要 花费 的 时 间 
是 2(n/p-1) + log p。 计 算 旋 转 因 子 的 开销 是 对 所 有 进程 求 和 ， 总 计 为 2 t. (n-p) + rep log P。 
因为 即使 是 品行 实现 计算 旋转 因子 的 开销 也 达到 t. nx， 由 于 额外 工作 而 导致 的 并 行 总 开 
销 Tem-wort 由 下 面 的 公式 给 出 : 


Totrawork (291(n— p+tplogp)—itn 
tln + pllog p — 2)) 
O(n) + Olp logp) 


这 一 开销 与 用 于 计算 快速 传 里 叶 变 换 的 并 行 计算 机 的 体系 结构 无 关 。 与 Te*"*-wr 相关 的 
等 效率 国 数 为 BC log p)。 由 于 这 个 项 的 顺序 与 消息 启动 时 间 和 并 发 相关 的 等 效率 项 的 顺序 相 
同 ， 这 些 额 外 的 计算 不 会 影响 并 行 快速 伟 里 叶 变 换 的 整体 可 扩展 性 。 


13.3 转 置 算法 


只 有 在 通信 带宽 与 CPU 处 理 速度 相 比 足够 高 的 并 行 计算 机 上 ， 二 进 制 交 换算 法 才 有 良好 
的 性 能 。 在 某 一 国 值 以 下 的 效率 可 以 在 适度 增加 处 理 器 数目 的 条 件 下 通过 增加 问题 的 规模 来 
保持 。 然 而 ， 若 通信 带宽 比 处 理 机 速度 低 的 话 ， 这 一 阔 值 是 很 低 的 。 在 本 节 中 ， 我 们 介绍 一 
种 不 同 的 快速 传 里 叶 变换 的 并 行 形式 ， 它 牺牲 一 部 分 效率 以 换取 更 为 一 致 的 并 行 性 能 。 由 于 
这 种 算法 用 到 了 矩阵 的 转 置 ， 因 此 称 为 转 置 算法 。 

转 置 算法 的 效率 在 低 于 阅 值 时 要 比 二 进 制 交换 算法 差 。 但 是 ， 在 超过 二 进 制 交换 算法 的 
效率 国 值 后 使 用 转 置 算法 更 容易 提高 效率 。 因 此 ， 本 算法 在 通信 带宽 与 CPU 速度 的 比值 较 小 
和 需要 较 高 效率 时 尤其 有 用 。 在 超 立 方 体 或 对 分 带宽 为 @(p) 的 p 节 点 的 网 络 上 ， 转 置 算法 有 固 
定 的 渐进 等 效率 函数 B(p'log p)。 就 是 说 ， 等 效率 函数 的 顺序 是 与 点 对 点 通信 和 计算 速度 的 比 


13.3.1 二 维 转告 算 法 
最 简单 的 转 置 算法 只 需 对 一 个 二 维 阵列 进行 转 置 运算 ， 所 以 我 们 称 之 为 二 维 转 置 算 法 


(two-dimensional transpose algorithm ) 。 

假设 Vn 是 2 的 矫 ， 并 且 在 算法 13-2 中 使 用 的 大 小 为 4 的 序列 排列 在 一 个 Va x Vn 的 二 维 方 
阵 中 ，n = 16 的 情况 如 图 13-8 所 示 。 请 回忆 在 算法 13-2 中 ;计算 一 个 m 点 序列 的 快速 传 里 叶 变 
换 要 经 过 外 层 循 环 的 log "次 迭代。 车 数据 按照 图 13-8 所 示 方 式 排 列 ， 那 么 进行 快速 傅 里 时 变 
换 时 每 列 能 够 独立 经 log Yn 次 迭代 处 理 完成 ， 而 不 需要 从 其 他 列 取 数据 的 任何 列 。 类 似 地 ， 
住 余 下 的 log yn 次 选 代 中 ， 每 行 独立 进行 计算 ， 不 需要 从 其 他 行 取 数 据 的 任何 行 。 图 13-8 说 
明 16 点 快速 传 里 叶 变换 的 元 素 组 合 模式 。 由 图 可 知 ， 如 果 规 模 为 ”的 数据 排 成 三 x Va 的 二 维 
阵列 ， 那 么 4 点 的 快速 伟 里 叶 变 换 等 价 于 阵列 中 列 的 独立 Vn 点 快速 传 里 叶 变换 ， 随 后 接着 阵 
列 中 行 的 独立 Vn 点 快速 传 里 叶 变 换 。 
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c) 迭代 m = 2 d) 夺 代 m=3 
图 13-8 数据 排列 成 4 x 4 二 维 方 阵 的 16 点 快速 传 里 叶 
变换 的 元 素 组 合 模 式 


如 果 在 计算 Vn 点 列 的 快速 健 里 叶 变 换 后 将 Vn x vn 数据 阵列 转 置 ， 则 问题 余下 部 分 是 计 


算 转 置 后 矩阵 的 Vn 点 按 列 的 快速 傅 里 叶 变 换 。 转 置 算法 利用 这 一 特性 并 行 计算 快速 传 里 叶 变 


换 ， 计 算 中 在 进程 之 间 按 列 进行 带 状 划分 分 配 数 据 的 Vn x Vn 阵列 。 例 如 ， 考 虑 图 13-9 所 示 的 
16 扩 快速 健 里 叶 变 换 的 计算 ,4 x 4 的 数据 阵列 在 4 个 进程 间 分 配 , 每 个 进程 存储 阵列 的 一 个 列 。 
一 般 地 ， 二 维 转 置 算法 分 三 阶段 进行 。 第 一 阶段 计算 每 列 的 Vn 点 快速 傅 里 叶 变换 ; 第 二 阶段 
转 置 数据 阵列 ， 第 三 阶段 也 就 是 最 后 一 阶段 与 第 一 阶段 一 样 ， 包 含 转 置 阵列 中 各 列 的 Vn 点 快 
速 传 里 叶 变 换 。 从 图 13-9 看 出 ， 算 法 的 第 一 和 第 三 阶段 无 需 进行 进程 间 通 信 。 在 这 两 个 阶段 ， 
对 于 每 个 按 列 的 快速 伟 里 叶 变 换 的 所 有 Vn 点 在 同一 进程 是 可 用 的 。 只 有 第 二 阶段 需要 在 转 
置 Vn x Vn 矩阵 时 进行 通信 。 

在 图 13-9 所 示 的 转 置 矩阵 算法 中 ， 数 据 阵列 的 一 列 分 配给 一 个 进程 。 在 更 进一步 分 析 转 
轻 算 法 前 ， 先 考虑 下 面 更 一 般 的 情形 : 使 用 p 个 进程 ，1 < p< Vn 。Vnxwvn 数据 阵列 带 状 划 
分 成 块 ， 每 个 进程 分 到 yn /p 行 的 一 块 。 在 算法 的 第 一 和 第 三 阶段 计算 大 小 为 Vn 的 Vn /p 个 快 
束 仿 里 叶 变 换 。 第 二 阶段 转 置 Vn x Vn 和 矩阵， 这 是 用 一 维 划分 在 p 个 进程 间 分 配 的 矩阵 。 回 忆 
4.5 方 ， 这 样 的 转 置 需要 多 对 多 私自 通信 。 

现在 来 推导 二 维 转 置 算法 并 行 运行 时 间 的 表达 式 。 本 算法 唯一 的 进程 间 通 信 发 生 在 将 按 
行 或 按 列 划分 并 映射 到 p 个 进程 的 Vn x Vn 矩阵 进行 转 置 运算 时 。 在 表 4-1 中 的 多 对 多 私自 通信 
的 表达 式 中 ， 用 每 个 进程 所 拥有 的 数据 量 n/p 代 赫 消 息 的 大 小 m， 获 得 算法 第 二 阶段 的 时 间 花 
费 1, OP-1D + tw n/p。 第 一 和 第 三 阶段 分 别 耗 时 t. x Vn /p x Yn log Vn 。 因 此 ， 在 超 立 方 体 或 任 
何 对 分 带宽 为 8(p) 的 网 络 上 ， 转 置 算法 的 并 行 运行 时 间 如 下 : 


n 
Tp = Ze Vilog Vi + hlp 1)+ty— 
p 


tlognt+t(p— D+ 
一 — logn 一 1 一 
“pp 8 s\p We (13-11) 
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加 速 比 和 效率 的 表达 式 为 : 


加 pnlogn 
nlogn + (ts /to)p? + (tw /ton 
l z 
1+(pD)/(enlogn) + tw/(te logn) (13-12) 


本 并 行 系统 的 进程 -时 间 乘 积 为 ka log n + tp? + t,n。 若 n log n = (plog p)， 则 它 是 成 本 
最 优 的 。 

注意 ， 在 公式 (13-12) 的 效率 表达 式 中 ， 与 1, 相关 的 项 同 进程 数 无 关 。 本 算法 的 并 发 度 要 
求 Vn = Q(p)， 因 为 最 多 有 Vn 个 进程 可 以 用 于 以 带 状 方式 划分 Vn x Vn 数据 阵列 。 因 此 ，n = 
Q(p*)， 或 n log n = &(pilog 让。 为 了 有 效 地 利用 全 部 进程 ， 问 题 规模 的 增长 必须 至 少 与 关于 进 
程 数 的 B(p2log p) 同 样 快 。 在 超 立 方 体 或 任何 对 分 带宽 为 8(p) 的 互联 网 络 上 ， 二 维 转 置 算法 的 
整体 等 效率 函数 为 9(p*log p)。 这 一 等 效率 函数 与 表示 点 对 点 间 通 信和 的 t, 和 # 的 比率 无 关 。 在 
截面 带宽 b 小 于 p 节 点 的 B@(p) 的 网 络 中 ， 为 了 推导 出 T, 、5、E 及 等 效率 冰 数 ，t, 必须 乘 以 一 个 
适当 的 B(p/b) 的 表达 式 (习题 13.6)。 


n, Rh'!' 及， 8B Bh: BP! Bh: B 
OO OO 
OO ©0000 
OO ro 
@ BIG @ '@ DO OO 


a) 转 置 算法 第 一 阶段 中 的 步 又 ( 转 置 前 ) 


07OOG :OOO7rG@ 
OO OONONG 
OOooo@ /OOO 
Oooe@ OOONO 


b) 转 置 算法 第 三 阶段 中 的 步骤 ( 转 置 后 ) 
图 13-9 4 进程 的 16 点 快速 传 里 叶 变换 的 二 维 转 置 算法 


与 二 进 制 交换 算法 的 比较 

比较 公式 (13-4) 与 (13-11) 可 知 ， 转 置 算法 由 于 消息 启动 时 间 # 而 比 二 进 制 交换 算法 具有 更 
高 的 开销 ， 但 是 由 于 每 字 传 输 时 间 z 而 比 后 者 具有 更 低 的 开销 。 结 果 ， 哪 个 算法 更 快 取决 与 6 
和 4 的 相对 值 。 若 延迟 i 非常 低 ， 则 转 置 算法 更 理想 。 另 一 方面 ， 在 高 通信 带宽 和 启动 时 间 很 
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长 的 并 行 计 算 机 上 ， 二 进 制 交 换算 法 可 能 会 工作 得 更 好 。 

从 13.2.1 市 可 知 ，B(p log p) 的 整体 等 效率 前 数 可 用 二 进 制 交 换算 法 实现 ， 只 要 效率 满足 
Kt,1t. 《< 1， 其 中 K = E/(1-E)。 藻 要 求 的 效率 满足 Kt, /1t。 = 2， 则 二 进 制 交换 算法 和 转 置 算法 的 
整体 等 效率 函数 都 是 B(p’log p)。 当 Ki /1t.。 > 2 时 ， 二 维 转 置 算法 的 可 扩展 性 比 二 进 制 交换 算法 
的 更 好 ; 因此 在 上 >P 时 ， 应 该 选择 前 者 。 但 是 值得 注意 的 是 ， 二 维 转 置 算法 仅 在 目标 机 器 体 
系 结构 的 p 市 点 的 截面 带宽 为 8(p) 时 才 比 二 进 制 交换 算法 有 更 好 性 能 (习题 13.6 )。 


13.3.2 转 置 算法 的 推广 


在 二 维 转 置 算法 中 ， 大 小 为 x 的 输入 排列 成 Vn x Vn 的 二 维 阵列 ， 按 一 维 划分 给 p 个 进程 。 
忽略 并 行 计算 机 的 底层 体系 结构 ， 这 些 进 程 可 以 认为 是 按 一 个 逻辑 上 的 一 维 线性 数组 排列 。 
作为 这 一 模式 的 推广 ， 我 们 可 以 把 排列 在 ms x ms x m3 三 维 阵列 中 的 n 个 数据 点 映射 到 逻辑 上 
的 Vp x Vp 的 二 维 进程 格 网 。 图 13-10 说 明 这 种 映射 。 为 简化 算法 的 描述 ， 将 三 维 阵列 的 三 个 
轴 记 作 x、y、z。 在 这 个 映射 中 ， 阵 列 的 x-y 平 面 划 分 成 棋盘 式 的 Vp x Vp 块 。 如 图 中 所 示 ， 
每 个 进程 存储 (nx VP ) x (ml3 x Vp ) 列 的 数据 ， 每 列 的 长 度 ( 沿 z 轴 ) 为 5?。 所 以 每 个 进程 

有 (nx Vp ) x (3 x Vp ) xmas = n/p 个 数据 元 素 。 





图 13-10 2 个 进程 的 点 快速 傅 里 叶 变换 的 三 维 转 置 矩 阵 算法 中 的 数据 分 布 (VD < ma) 


在 13.3.1 节 中 已 知 ， 计 算 排列 成 Va x Vn 输入 的 快速 传 里 叶 变 换 ， 可 以 先 计算 数据 所 有 列 
上 的 Vn 点 一 维 快速 侍 里 叶 变 换 ， 再 计算 所 有 行 上 的 VA 扩 一 维 快速 健 里 叶 变 换 。 若 数据 排列 
成 “x nx na 三维 阵 列 ， 则 整个 4 点 快速 伟 里 叶 变 换 的 计算 是 类 似 的 。 在 本 例 的 所 有 三 个 维 





中 ，m3 点 快速 传 里 叶 变换 的 计算 是 在 阵列 各 列 的 元 素 上 进行 的 ， 每 次 选择 一 维 。 这 个 算法 我 
们 称 为 三 维 转 置 算法 。 算 法 分 成 下 面 5 个 阶段 : 

1) 第 一 阶段 ， 沿 z 轴 的 所 有 行 计算 心 ? 点 快速 傅 里 叶 变换 。 

2) 第 二 阶段 ， 把 大 小 为 ma x ms 的 所 有 ma23 个 鹤 面 沿 / 一 z 平 面 转 置 。 

3) 第 三 阶段 ， 对 更 改 后 的 阵列 的 所 有 行 沿 z 轴 计算 ms 点 快速 傅 里 叶 变换 。 

4) 第 四 阶段 ， 转 置 每 个 治 zz 平面 的 m2 x ma2 个 截面 。 

5) 第 五 阶段 ， 再 次 沿 z 轴 的 所 有 行 计算 ms? 点 快速 傅 里 叶 变换 。 

对 如 图 13-10 所 示 的 数据 分 布 ， 在 算法 的 第 一 、 三 、 五 阶段 ， 所 有 进程 进行 (n'3 x Vp ) x 
(n'3 x Vp ) 快 速 伟 里 叶 变 换 的 计算 ， 每 个 大 小 为 *”。 由 于 所 有 用 到 的 数据 都 在 每 个 进程 本 地 ， 
无 需 在 这 三 个 奇数 阶段 中 进行 进程 间 通 信 。 在 这 三 个 阶段 的 每 一 阶段 中 时 间 花 费 为 tn1'3 log 
(m3)x(n3/Vp)x(m31Yp) 。 因 此 一 个 进程 在 计算 中 的 总 时 间 花 费 为 (n/p)log n。 

图 13-11 说 明 三 维和 矩阵 算法 第 二 、 四 阶段 的 情况 。 从 图 13-11a 可 看 出 ， 算 法 第 二 阶段 要 在 
y-z 平 面 上 转 置 大 小 为 ms x ms 的 截面 方 阵 。Vp 个 进程 的 每 列 对 这 样 的 截面 进行 3/Vp 的 转 
置 。 这 种 转 置 要 在 Vp 个 进程 的 组 之 间 用 到 多 对 多 私自 通信 ， 其 私有 信息 大 小 为 mwpayz。 若 使 
用 对 分 带宽 为 8(p) 的 p 节 点 网 络 ， 本 阶段 耗 时 t, (Vp -1) + tn/p。 如 图 13-1ib 所 示 ， 第 四 阶段 
是 类 似 的 。 此 处 Vp 个 进程 的 每 行 沿 x-z 平 面 对 n'? x Vp 的 截面 进行 转 置 。 再 次 看 到 ， 每 个 截 
面包 含 m3 x n13 数 据 单元 。 本 阶段 的 通信 时 间 与 第 二 阶段 一 样 。n 点 快速 傅 里 叶 变 换 的 三 维 转 
置 算法 的 总 体 并 行 运行 时 间 为 : 

Tp = te logn 十 25(vVP 一 1) + 2 (13-13) 

学 过 二 维和 三 维 转 置 算法 后 ， 我 们 可 以 推导 更 一 般 的 类 似 的 g 维 转 置 算法 。 令 n 点 输入 排 
列 成 一 个 逻辑 的 q 维 na19 x nv x … x nv ( 共 q 项 ) 阵列 。 整 个 4 点 快速 仿 里 叶 变 换 可 以 视 作 ga 个 
子 计 算 。 在 不 同 的 维 上 的 每 个 子 计 算 包 含 n 个 数据 点 的 na-09 个 快速 伟 里 叶 变 换 。 我 们 将 数据 
阵列 映射 到 p 个 进程 的 逻辑 上 的 (q-1) 维 阵列 ， 其 中 p< ne-049，p = 24-s ，5 为 某 个 整数 。 整 个 
数据 的 快速 伟 里 叶 变 换 现 在 包含 29-1 计 算 阶段 (回忆 二 维 转 置 算法 有 3 阶段 ， 三 维 转 置 算 法 有 
5 阶段 )。 在 4 个 奇数 编号 的 阶段 中 ， 每 个 进程 计算 所 需 的 me-De/p 个 ms 点 的 快速 传 里 叶 变 换 。 
在 所 有 4 个 阶段 上 每 个 进程 的 总 计算 时 间 是 9 (计算 阶段 数 )、ne-pwp (每 个 进程 在 每 个 阶段 计 
算 的 a“ 点 快速 伟 里 叶 变 换 的 个 数 ) 和 mlog (nx) (计算 单个 me 点 快速 傅 里 叶 变 换 的 时 间 ) 
的 乘积 。 把 这 三 项 相 乘 就 得 到 总 计算 时 间 t. (n/p)log n。 

在 (9- 1) 个 偶数 编号 的 阶段 里 ， 大 小 为 ms x ms 的 子 阵列 按 进程 的 g 维 逻辑 阵列 的 行 转 置 。 
每 个 这 样 的 行 包含 P"“ 个 进程 。 在 这 (4-1) 个 通信 阶段 的 每 个 阶段 里 ， 沿 着 (9-1) 维 进程 阵列 
的 每 一 维 都 要 进行 一 次 这 样 的 转 置 。 每 次 转 置 中 的 通信 耗 时 为 上 (pre-D-1) + tn/p。 这 样 ， 在 
对 分 带宽 为 8(p) 的 p 节 点 网 络 上 n 点 快速 传 里 叶 变 换 的 g 维 转 置 算法 总 的 并 行 运行 时 间 为 


Tp =ic—logn+(q — Dis(pHe-D 1)+(g ~ Di 
< s wD (13-14) 


公式 (13-14) 可 以 通过 用 2、3 代 赫 g 并 将 结果 分 别 与 公式 (13-11) 和 (13-13) 进 行 比较 进行 验证 ， 
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比较 公式 (13-11)、(13-13)、(13-14) 和 (13-4) 可 以 发 现 一 个 有 趣 的 趋势 : 随 着 转 置 算法 维 
数 q 的 增加 ， 由 于 1 的 通信 开销 也 随 之 开销 反而 增加 ， 但 由 于 i 的 减少 。 二 进 制 交换 算法 和 二 
维 转 置 算法 可 以 看 作 是 两 个 极端 。 前 者 把 由 于 4, 的 通信 开销 最 小 化 ， 但 有 着 最 大 的 1 的 通信 开 
销 。 后 者 把 由 于 i 的 通信 开销 最 小 化 ， 但 有 着 最 大 的 1; 的 通信 开销 。 对 于 2 < g < log p 的 各 种 
转 置 算法 处 于 这 两 个 极端 之 间 。 对 于 给 定 的 并 行 计算 机 ， 特 定 的 :: 、t; 和 z 值 可 以 决定 这 些 算 
法 中 哪个 算法 具有 最 优 的 并 行 运行 时 间 (习题 13.8)。 





P, 5 P; s+1 P. +42 Pu ss-i 


a) 第 二 阶段 中 处 理 器 第 i 列 中 的 转 置 b) 第 四 阶段 中 处 理 器 第 i 行 中 的 转 置 
图 13-11 p 个 进程 x 点 FFT 的 三 维 转 置 算 革 中 的 通信 ( 转 置 ) 阶段 


从 实用 的 观 氮 来 看 ， 只 有 二 进 制 交 换算 法 ， 二 维 、 三 维 转 置 矩阵 算法 是 实用 的 ， 更 高 维 
的 转 置 矩 阵 算法 过 于 复杂 ， 难 以 编程 。 此 外 ， 对 n 和 p 的 限制 影响 了 其 适应 性 。 对 g 维 的 转 置 算 
阵 算 法 来 说 ， 限 制 条 件 是 : n 必 须 是 2 的 舌 、g 的 倍数 ，p 必 须 是 2 的 矫 、 (4-1) 的 倍数 。 换 句 话 
说 ,，n = 2”，p =24-)*， 其 中 s、r、gq 都 是 整数 。 


例 13.2 二 进 制 交 换算 法 、 二 维 转 置 算法 和 三 维 转 置 算 法 的 比较 。 


本 例 说 明 ， 不 论 是 二 进 制 交 换算 法 还 是 某 种 转 置 算法 ， 都 可 以 作为 给 定 的 并 行 计算 机 上 的 
算法 选择 ， 这 取决 于 快速 传 里 叶 变换 的 规模 。 考 察 例 13.1 中 描述 的 64 节 点 的 超 立 方 体 ， = 2， 
i = 4, i, = 25。 图 13-12 给 出 用 二 进 制 交换 算法 、 二 维 转 置 算法 、 三 维 转 置 算法 在 不 同 问题 规 
模 下 得 到 的 加 速 比 。 加 速 比 分 别 来 自 于 公式 (13-4)、(13-11) 以 及 (13-13) 的 并 行 运行 时 间 。 图 中 
显示 ， 不 同 算法 在 不 同 的 n 范 围 内 对 点 快速 传 里 叶 变 换 提供 最 高 的 加 速 比 。 就 已 给 定 的 硬件 
参数 来 说 ， 二 进 制 交换 算法 最 适合 低 粒 度 情况 下 的 快速 信里 叶 变 换 计算 。 二 维 转 置 算法 适合 
极 高 粒度 情况 下 的 快速 传 里 叶 变 换 计算 。 三 维 转 置 算法 的 加 速 比 则 在 中 粒度 情况 下 是 最 好 的 。 

国 
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图 13-12 二 进 制 交换 算法 、 二 维 转 置 算法 和 三 维 转 置 算法 在 
64 布 反超 立方 体 上 (t= 2，t, =4， ts = 25) 加 速 比 的 比较 


13.4 书目 评注 


由 于 健 里 叶 变 换 在 科学 与 工程 计算 中 的 重要 作用 ， 在 并 行 计算 机 上 实现 快速 健 里 叶 变 换 
一 直 倍 受 关 注 ， 有 关 的 性 能 研究 也 很 多 。Swarztrauber[Swa87] 介 绍 向 量 计算 机 和 并 行 计 算 机 
上 的 许多 快速 傅 里 叶 变 换 实 现 。Cvetanovic[fCve87]，Norton 和 Silberger[NS87] 对 基于 伪 共 享 
内 存 体系 结构 的 机 器 (如 IBM RP-3) 上 的 快速 传 里 叶 变 换 给 出 详尽 的 性 能 分 析 。 他 们 考虑 了 
各 种 在 内 存 块 中 数据 划分 的 情况 ， 对 每 种 情况 都 按 问题 规模 、 进 程 数 、 内 存 延 迟 、CPU 速 度 
和 通信 速度 得 出 通信 开销 和 加 速 的 表达 式 。Aggarwal，Chandra 和 Snir[ACS89c] 分 析 在 新 的 并 
行 计算 模型 LPRAM 上 快速 传 里 叶 变 换 和 其 他 算法 的 性 能 。 LPRAM 与 标准 PRAM 的 不 同 之 处 
在 于 ，LPRAM 中 的 远程 访问 较 之 本 地 访问 的 成 本 更 高 。 述 有 许多 其 他 研究 人 员 在 从 事 不 同 伟 
系 结构 上 的 并 行 快速 傅 里 叶 变 换算 法 及 其 实现 和 实验 评估 方面 的 研究 [AGGM90, Bai90， 
BCJ90, BKH89, DT89, GK93b, JKFM89, KA88, Loa92]。 

基本 的 快速 传 里 叶 变 换算 法 (本章 讨论 它 的 并 行 形式 ) 称 为 无 序 快速 傅 里 叶 变 换 ， 因 为 
答 出 序列 的 元 素 是 按 位 反 转 的 下 标 顺序 储存 的 。 换 句 话 说， 输入 信号 的 频谱 要 经 过 对 输出 序 
列 Y 元 素 的 重新 排列 后 才能 得 到 ， 其 中 7 是 由 算法 13-2 产 生 的 ， 产 生 的 方式 是 对 所 有 i， 都 用 
YI 站 来 代替 YI]，j 是 通过 反 转 二 进 制 表达 的 i 而 得 到 的 。 这 是 一 步 置 换 操作 ， 称 为 位 反 转 (bit 
reversal )。Norton 和 Silberger[NS87] 证 明 最 多 只 要 经 过 24 +1 步 通信 就 可 以 得 到 一 个 有 序 的 变 
换 ， 其 中 d = log PP。 由 于 无 序 快 速 传 里 叶 变换 的 计算 只 需 d 步 通信 ， 有 序 快 速 传 里 叶 变 换 的 总 
亲信 开销 差不多 比 无 序 快速 传 里 叶 变 换 的 两 倍 。 显 然 在 合适 的 场合 都 会 采用 无 序 快速 企 里 时 
变换 。 当 这 个 变换 是 更 大 计算 的 一 部 分 ， 且 对 用 户 是 不 可 见 部 分 的 时 候 ， 就 无 需 对 输出 序列 
进行 排序 [Swa87]。 在 许多 实际 的 快速 傅 里 叶 变换 应 用 程序 中 ， 如 离散 铂 松 方程 的 求解 和 卷 积 ， 
位 反 转 是 可 以 避免 的 [Loa92]。 如 果 需 要 ， 位 反 转 可 以 用 由 Van Loan[Loa92] 给 出 的 基于 分 布 式 
内 存 并 行 计算 机 的 算法 执行 。 这 个 算法 的 源 进 通信 复杂 度 与 超 立 方 体 上 的 二 进 制 交换 算法 的 
一 样 。 
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文献 中 提出 了 一 些 简 单 快 速 傅 里 叶 变 换算 法 的 变 体 。Gupta 和 Kumar[GK93b] 证 明 一 维和 二 
维 快速 储 里 叶 变 换 在 格 网 和 超 立 方 体 上 的 总 通信 开销 是 -一样 的 。 使 用 某 些 计算 格式 可 以 使 在 
串 行 计算 机 上 计算 离散 傅 里 叶 变 换 时 比 简单 的 Cooley-Tukey 快 速 傅 里 叶 变 换算 法 少 一 些 算术 运 
算 [INus82， B76， Win77]。 其 中 最 引 人 和 人 注目 的 方法 包括 : 以 大 于 2 的 基数 对 一 维 快速 任 里 叶 变 
换 进行 计算 ， 以 及 用 多 项 式 变换 法 ， 把 多 维 快速 傅 里 叶 变换 转化 为 一 组 一 维 快速 傅 里 叶 变 换 
进行 计算 。 计 算 基 数 为 9 的 快速 傅 里 叶 变换 时 ， 要 先 把 大 小 为 上 的 输入 序列 分 成 大 小 为 ma 的 4 个 
子 序列 ， 再 计算 这 4 个 较 小 的 快速 传 里 叶 变 换 ， 最 后 组 合 得 到 结果 。 例 如 ， 一 个 基数 为 4 的 快 
速 传 里 叶 变 换 ， 每 步 从 4 个 输入 计算 4 个 输出 ， 总 的 迭代 次 数 为 logsn 而 不 是 logxm。 输 入 序列 的 
长 度 是 4 的 寡 。 尽 管 减少 了 友 代 次 数 ， 基 数 q 的 快速 传 里 叶 变 换 的 累计 通信 时 间 还 是 与 基数 为 2 
时 一 样 。 例 如 ， 对 于 一 个 超 立 方 体 上 的 基数 4 的 算法 ， 每 步 通信 涉及 分 布 在 二 维 的 4 个 进程 ， 
而 不 是 一 维 的 两 个 进程 。 与 此 相反 的 是 ， 在 基数 为 4 的 快速 傅 里 叶 变换 中 ， 乘 法 的 计算 量 比 基 
数 为 2 时 少 25%[Nus82]。 使 用 更 高 的 基数 ， 这 一 数字 可 以 稍稍 改进 ， 但 通信 量 还 是 保持 不 变 。 
习题 

13.1 ”车 一 "点 快速 传 里 叶 变换 计算 的 串 行 运行 时 间 为 ma log n。 考 虑 它 在 一 并 行 运行 时 
间 为 (alog n)/p + (tn log pp 的 体系 结构 上 的 实现 。 设 上 = 1, 六 = 0.2。 

1 ) 写 出 加 速 比 和 效率 的 表达 式 。 

2) 若 期 望 效 率 为 0.6， 等 效率 函数 是 什么 ? 

3) 若 期 望 效率 为 0.4， 等 效率 函数 如 何 改 变 ( 若 有 变化 的 话 ) ? 

4) 若 m = 1， 其 余 不 变 ， 重 做 上 面 1)、2) 小 题 。 

13.2 [Tho83] 试 证 ， 当 在 由 p 个 进程 组 成 的 方形 格 网 中 进行 快速 伟 里 叶 变 换 时 ， 至 少 有 
一 次 选 代 ， 其 中 一 对 需要 进行 通信 和 的 进程 相距 至 少 为 Jp /2 个 链 路 。 

13.3 ”描述 在 由 p 个 进程 组 成 的 线性 阵列 中 二 进 制 交换 算法 的 通信 模式 。 线 性 阵列 上 一 进 
制 交 换算 法 的 并 行 运行 时 间 、 加 速 比 、 效 率 和 等 效率 函数 分 别 是 什么 ? 

13.4 试 证 ， 车: = 0， 格 网 上 二 进 制 交换 算法 的 等 效率 函数 由 W = 2K(r /1 )22kovoVP VD 
给 出 。 
提示 : 利用 公式 (13-10)。 

13.5 证 明 : 在 使 用 p 个 进程 的 "点 快速 传 里 叶 变 换 的 并 行 实现 中 ， 任 一 进程 计算 的 旋转 
因子 的 最 大 数量 由 13.2.3 节 中 给 出 的 递归 关系 给 出 。 z 

13.6 ”对 p 节 点 二 维 格 网 和 p 节 点 线性 阵列 上 的 n 点 快速 储 里 叶 变 换 ， 推 导 13.3.1 节 中 描述 
的 二 维 转 置 算法 的 并 行 运行 时 间 、 加 速 比 和 效率 ， 

13.7 ” 若 忽 略 上 ， 通 过 什么 因素 可 增加 p 节 点 格 网 的 通信 带宽 ， 使 得 它 产生 与 p 节 点 超 立方 
体 上 的 4 点 快速 传 里 叶 变 换 的 二 维 转 置 算法 同样 的 性 能 ? 

13.8 给 定 超 立 方 体 网 络 的 下 列 通信 相关 常数 : 1) t= 250,t,= 11, i) += 50,1,=1, 111) 
t=10,t, =1, iV) t=2,t,=1, v) t=0,t,=1,。 . 

1) n= 2%,p = 2? 时 ， 对 于 上 述 各 组 t,t 的 值 ， 从 二 进 制 交 换算 法 以 及 二 维 、 三 维 、 四 
维和 五 维 转 置 算法 中 选择 最 合适 的 算法 。 

2) 在 (a)m=22,p=25，(b) n= 22,p= 2 时 重 做 1) 题 。 
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13.9 [GK93b] 考虑 在 Vp x Vp 的 格 网 上 计算 "点 快速 傅 里 叶 变换 。 若 通道 带宽 随 格 网 节 
点 数 p 以 B(pz*)(x > 0) 的 速度 增长 ， 试 证 由 通信 开销 引起 的 等 效率 函数 为 @(p%5-*220610 p05-*) ， 
由 并 发 度 引 起 的 等 效率 函数 为 @(p'*' logp)。 另 外 ,证 明 即 使 通道 带宽 随 格 网 中 节点 数目 任意 
地 增长 ， 格 网 上 快速 傅 里 叶 变换 的 最 好 可 能 的 等 效率 国 数 为 @(p!s logp) 。 





附录 A 函数 的 复杂 度 与 阶 次 分 析 
在 本 书 中 ， 许 多 地 方 都 用 阶 次 分 析 和 函数 的 渐 近 复杂 度 来 分 析 算法 的 性 能 。 


A.1 范 数 的 复杂 度 


当 分 析 本 书 中 的 并 行 算法 时 ， 我 们 用 到 下 面 三 种 类 型 的 图 数 : 

1. 指数 函数 ”从 实数 到 实数 的 函数 /， 如 果 可 以 用 f(x) = 的 形式 表示 ， 则 称 / 为 x 的 指数 
(exponential) 国 数 ， 其 中 x,aE 员 ( 实 数 集 ) 且 a >1。 例 如 ，25、1.$: 和 3 天 都 是 指数 图 数 。 

2. 多 项 式 函 数 ”从 实数 到 实数 的 函数 /， 如 果 可 以 用 f(x) = 世 的 形式 表示 ， 则 称 / 为 x 的 b 次 
多 项 式 函 数 (polynomial function)， 其 中 x,，b E 及 (实数 集 ) 且 > 0。 线 性 函数 (linear 
function) 是 1 次 多 项 式 图 数 ， 二 次 函数 (quadratic function ) 是 2 次 多 项 式 函 数 。 例 如 ， 2，Sx 
和 5.5x” “都 是 多 项 式 函 数 。 

如 果 函 数 是 两 个 多 项 式 函 数 g 和 h 的 和 ， 则 f 仍 是 多 项 式 消 数 ， 它 的 次 数 等 于 g 和 h 中 的 最 高 
次 数 。 例 如 ，2x + 习 是 2 次 多 项 式 函 数 。 : 

3. 对 数 函 数 。” 从 实数 到 实数 的 函数 {/， 如 果 可 以 表示 以 f (x) = logsx 的 形式 表示 ， 则 称 /为 x 
的 对 数 函 数 (logarithmic function )， 其 中 x, bE 呐 且 b5 > 1。 在 这 种 表示 方式 中 ，b 称 为 对 数 的 
底 【(base)。 例 如 ，log1sx 和 log2zx 都 是 对 数 函 数 。 除 非特 别 说 明 ， 本 书 中 的 对 数 都 以 2 为 底 。 我 
们 用 log x 表示 log2x， 用 log 六 表示 (log2x)?。 

本 书 中 的 绝 大 多 数 国 数 可 以 表示 成 两 个 或 多 个 国 数 的 和 。 如 果 国 数 Fo) 比 g (x) 增 长 快 ， 则 
称 函数 /支配 (dominate) 函数 sg。 因 此 ， 函 数 /支配 函数 8， 当 且 仅 当 Ax)/g(x) 是 关于 x 的 单调 递 
增 图 数 。 换 句 话说 ，j 支配 8 当 且 仅 当 对 任意 常数 c > 0， 存 在 一 个 值 zx， 使 得 z > xo 时 , f(x) > 
cg(Xx)。 指 数 函数 支配 多 项 式 孙 数 ， 多 项 式 尔 数 支 配对 数 函 数 。 关 系 支 配 是 传递 的 ， 如 果 胃 数 f 
支配 冰 数 8g， 函 数 g 支 配 函 数 h， 则 函数 f 也 支配 函数 h。 因 此 ， 指 数 函数 也 支配 对 数 函 数 。 


A.2 函数 的 阶 次 分 析 

对 算法 进行 分 析 时 ， 通 常 很 难 或 者 不 可 能 导出 如 运行 时 间 、 加 速 比 和 效率 等 参数 的 确切 
表达 式 。 因 此 ， 许 多 情况 下 ， 只 能 够 近似 地 表示 精确 表达 式 ， 这 种 近似 表示 可 能 更 能 说 明 国 
数 的 性 质 ， 因 为 它 注重 于 影响 参数 的 关键 因素 。 
例 A.1 三 辆 汽车 行驶 的 距离 

考察 三 辆 汽车 4，B，C。 假 设 我 们 在 t = 0 时 刻 开 始 监视 它们 。 在 ! = 0， 汽 车 4 以 1000 英 尺 
每 秒 的 速度 恒定 行驶 ; 在 := 0， 汽 车 B 以 100 英 尺 每 秒 的 速度 行驶 ， 加 速度 为 20 英 尺 / 秒 :; 汽车 
C 在 t = 0 时 刻 处 于 静止 状态 ， 然 后 行驶 的 加 速度 为 25 英 尺 / 秒 *。 用 Ds (1)，Ds (1)，De (0) 分 别 表 
示 汽 车 A4，B8，C 在 t 秒 内 行驶 的 距离 ， 从 初等 物理 学 可 知 
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Dalt) = 10001 
Dp = 100r + 207° 
Delt) = 25S1 


现在 ， 我 们 比较 三 - 辆 车 在 指定 时 间 内 和 了 驶 的 距离 。 当 ! > 45 秒 时 ， 汽 车 8 将 超越 汽车 4。 同 
样 ， 当 t > 20 秒 时 ， 汽 车 C 超 越 汽 车 8， 当 t > 40 秒 时 ， 汽 车 C 超 越 汽 车 4。 而 且 , +t > 20 时 ，Prc 
(1) < 1.25 Ds (0) 且 De (1) < De (1)， 这 表示 经 过 一 定时 间 后 ， 汽 车 8 和 汽车 C 的 性 能 差异 由 一 个 常 
数 乘 数 因 子 成 比例 地 限定 。 所 有 这 些 事实 都 可 用 表达 式 的 阶 次 分 析 表 示 。 图 


9 符号 : 从 例 A.1 可 知 ， 对 于 : > 20，Dc (nD) < 1.25De(D 且 De(D < Dec (2); 即 在 :> 0 时 ， 汽 车 
8 和 汽车 C 的 性 能 差异 由 一 个 常数 乘 数 因子 限定 。 在 分 析 性 能 时 ， 这 样 的 等 价 关系 非常 重要 。 
这 两 个 函数 间 的 关系 可 用 B 符 号 表示 为 Dc (1f) = B(Ds () 或 De (1) = B(De (1))。 而且， 这 两 个 孙 
数 都 等 于 B(7)。 

8 符号 的 形式 定义 如 下 : 给 定 国 数 8 (x),， f(x) = B(g (x)) 当 且 仅 当 对 于 任意 常数 cl, cx > 0， 
存在 一 个 x。> 0， 使 得 对 所 有 的 x> xo。， 有 cig(x) f(x) < csg(X)。 

O 符 号 : 通常 ， 我 们 希望 用 一 个 简单 的 函数 来 限制 某 一 特别 参数 的 增长 。 从 例 A.1 中 可 以 
看 到 ， 如 果 t > 45， 则 Ds (1) 总 是 大 于 Da (0 。Da4 (0 和 Ds (D 之 则 的 这 种 关系 可 用 O 符 号 表示 为 
Da(t) = OUDs (b))。 

O 符 号 的 形式 定义 如 下 : 给 定 函 数 gCo0，Fo = O(800) 当 且 仅 当 对 于 任意 常数 c > 0， 存 在 
一 个 mo> 0， 使 得 对 于 所 有 的 x > Xo0, 有 f(x) & cg(x)。 从 该 定义 我 们 可 得 出 Ds (7) = O(f*), Ds (人 
= O(f)。 而 且 ，D4 (1) = 0(1) 也 满足 0 符号 的 条 件 。 

9 符号: O 符 号 对 函数 的 增长 率 设置 上 界 ， 与 这 正好 相反 ， @ 符 号 对 函数 的 增长 率 设置 下 
界 。 从 例 A.1 中 可 知 ， 对 于 !> 40，D4(D < Dec(D， 这 个 关系 可 用 中 符号 表示 为 Dc(D = 2(D4(D)。 

2 符号 的 形式 定义 为 ， 给 定 国 数 8(z) ，Fxz) = Q(g(x)) 当 且 仅 当 对 于 任意 常数 c > 0， 存 在 一 
个 zx>0， 使 得 对 于 所 有 的 x> xo 有 f(x) > cg(x)。 


以 阶 次 符号 表示 的 函数 性 质 

表达 式 中 的 阶 次 符号 有 许多 性 质 ， 对 于 分 析 算 法 的 性 能 很 有 用 。 其 中 一 些 重要 性 质 如 下 : 
1 ) w= 0O(a， 当 上 且 仅 当 agzb。 

2) 对 于 所 有 的 a 和 b，log。(x) = 8(logs(x))。 

3) a = O(pP”)， 当 且 仅 当 a 《bb。 

4) 对 于 任意 常数 c，c = 0(1)。 

5) 如 果 f = O(8g)， 则 f+ 8 = O(g8)。 

6) 如 果 f = 9(8)， 则 /+g = 98(g)= 60)。 

7) f= O(g)， 当 且 仅 当 g = 0)。 

8) f= B(g)， 当 且 仅 当 f= Q&(g) 且 f= 0(8)。 
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索引 中 页 码 是 英文 版 原 书 页 码 ， 与 正文 中 边栏 页 码 相对 应 。 


oa-splitting (Qa 划分 )，486 
k-ary d-cube network ，(K 元 d 立 方 体 网 络 ， 参 看 
interconnection networks ) 
0/1 integer-linear-programming (0/1 整 数 线性 规划 )， 
469, 471 
fixed variable (国定 变量 )，472 
free variable ( 自由 变量 )，472 
0/1 knapsack (0/1 背 包 问 题 )，520 
1-D mapping (1 维 映 射 ) 
block ( 块 ) 
for connected components (连通 分 量 )，449 
for Dijkstra”s algorithm (Dijkstra 算 法 )，437 
for Johnson ss algorithm (Johnson 算 东 )，461 
for Prim”s aigorithm (Prim 算 法 )，435 
2-D mapping (2 维 映射 ) 
block ( 块 ) 
for Floyd ”s algorithm (Floyd 算 法 )、441 
for Johnson’ s algorithm (Johnson 算 法 )，459 
cyclic ( 循 坏 ) 
for Johnson”s algorithm ( Johnson 算 法 )，460 
8-Puzzle (九宫 重 排 )，470, 474 
admissibie heuristic for (人 允许 启发 式 )，473 
best-first search (最 佳 优 先 搜索 ) ，478 
depth-first search (深度 优先 搜索 )，476 


A* algorithm (A* 算 靶 )，478, 507 
acceleration anomalies ( 加 速 异 常 )，502 
acyclic graph (无 国 图 )，430 
adaptive routing ( 自 适应 路 由 选择 ， 参 看 routing 
mechanism ) 
adjacency list (邻接 表 )，431, 451,455 
adjacency matrix ( 邻接 矩阵 )，430，433，446，447 
adjacent vertex (邻接 顶点 )，429 
admissible heuristic (允许 启发 式 )，473 
all-palrs shortest paths (全 部 顶点 对 间 的 最 短路 径 )， 
437,446 
Dijkstra's algorithm (Dijkstra 算法 )，438 
source-parallel formulation ( 源 并 行 形式 )，439 
source-partitioned formulation ( 源 划 分 形式 )，438 


Floyd”s algorithm (Floyd 算 法 )，165, 440, 446,451， 
463, 526 
1-D block mapping〈1 维 块 喘 射 )，463 
2-D block mapping ( 2 维 块 映射 )，441, 463 
for cellular arrays (组 胞 阵列 )，464 
pipelined 2-D block mapping (流水 线 2 维 块 映 
射 )，443, 463 
performance comparisons (性 能 比较 )，445 
all-port communication (全 端口 通信 )，186，189 
all-reduce (全 归 约 ， 参 看 reduction ) 
all-to-all broadcast (多 对 多 广播 )，157，187，338-340， 
346 
dual of (… 的 对 偶 ， 和 参看 dual ) 
on hypercube (在 超 立 方 体 上 )，161 
pseudocode ( 伪 码 )，162, 163 
with all-port communication {全 端口 通信 )，189 
on linear array (在 线性 阵列 上 )，158 
on mesh (在 格 网 上 )，160 
pseudocode ( 伪 码 }，162 
on ring (在 坏 上 ) 
pseudocode ( 伪 码 )，160 
on tree (在 树 上 )，190 
all-to-all personalized communication (多 对 多 私自 通信 )， 
170, 187, 189, $54, 559 
on hypercube (在 超 立方 体 上 )，175, 177 
pseudocode (的 码 )，179 
with all-port communication (全 端口 通信 )，189 
on mesh (在 格 网 上 )，174 
on ring (在 环 上 )，173 
all-to-all reduction (多 对 多 归 约 ， 参 看 reduction) 
dual of (… 的 对 偶 ， 参 看 dual ) 
all-to-one reduction (多 对 一 归 约 ， 参 看 reduction )， 
342, 343, 35]1, 352, 435 
alpha-beta search {alpha-beta 搜 索 )，507 
Amdahl s law (Amdahl 定 律 )，210, 228 
applications (应 用 ) 
bioinformatics ( 生物 信息 学 )，5 
commerce and business (商业 和 和 商务}，5 
computational physics (计算 物理 )，5 
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computer systems (计算 机 系统 }，6 
computer vision ( 寺 算 机 视觉 )，9 
embedded systems (代入 式 系 统 )，6 
engineering and design ( 工程 与 设计 )，4 
scientific computing (科学 计算 ), 5 
arc connectivity (器 连 遂 性 )，43 
arithmetic mean {算术 平均 )，504 
array partitioning 《阵列 划分 ， 参 看 partitioninag ) 
artificial intelligence ( 人工 智 能 )，505 
atomic directive in OpenMP (OpenMP 中 的 原子 命令 )， 
325 
atomic operations (原子 操作 )、288 
attribute objects (异性 尘 象 ) 
changing properties (改变 属性 ) ，299 
initialization (初始 化 }，299 
mutex (五 斥 )，301 
properties (属性 ) 
mutex { 互 斥 )}，301] 
synchronization variables (同步 变量 )，300 
threads (线程 )，299 
automatic test pattern generation ( 自动 测试 模式 发 生 器 )， 
306 : 


back-substitution (9 代 }，165, 353,369 
backtracking ( 回溯 ) 
ordered ( 有 序 的 )，475 
simple (简单 的 )，475 
barrier (障碍 )，307 
logarithmic ( 对 数 的 ) ，309 
barrier directive in OpenMP (OpenMP 中 的 障碍 命令 )， 
322 
barrier synchronization (障碍 同步 ) 
using aljl-reduce (使 用 全 妇 约 )，166 
BDN (参看 bounded-degree network ) 
Bernoulli distribution ( 贝 努 利 分 布 )，504 
best-first branch-and-bound (最 佳 优 先 分 支 定 界 ) 
parallel ( 计 行 )，508 
best-first search (最 佳 优先 搜索 ) ，478 
A* algorithm (Ar*+ 算 法 )，478 
closed lst( 封 闲 表 )，478 
duplication in (重复 )，478 
open fist (开放 表 )，478 
parallel ( 并行}，500, 507 
blackboard strategy (黑板 策略 )，499, 507 
centralized strategy (集中 式 策 略 )，497 
2raph-search strategies (图 搜索 策 赂 ) 、5$00 
hash function ( 散 列 函数 )，500, 507 
random strategy (随机 策略 )，499, 507 


termination (终止 )，498 
storage requirement {存储 需求 )，478 
binary-exchange algorithm (i 进 制 交换 算法 ， 参 看 
fast Fourier transform ) 
binomial tree (二 元 树 )，189 
bisection bandwidth (对 分 带宽 }，44 
bisection width, 73, 79 
static networks (静态 网 络 )，43 
bit reversal (位 反 转 )，537, 561 
bitonic merge ( 双 调 合并 )，384 
bitonic merging network ( 双 调 合并 网 络 )，384 
bitonic sequence ( 双 调 序列 )，384 
bitoaic sort〈 双 调 排序 ) ，384, 386 
hypercube 〈 超 立方 体 )，387, 388 
block of elements per process {每 进程 的 元 素 块 )， 
392,417 
one element per process (每 进程 一 个 元 素 )}，388 
scalability ( 可 扩展 性 )，393 
mesh ( 格 网 )，387, 390 
block of elements per process (每 进程 的 元 素 块 )，393 
one element Per process (每 进程 一 个 元 素 )，390 
row-major (以 行为 主 )，391,417 
row-major shuffled (以 行为 主 混 洗 )，390, 391,417 
row-major snakelike (以 行为 主 蛇 形 )，391, 417 
scalability {可 扩展 性 )，394 
perfect shuffle (完全 混 洗 )，417 
performance sammary (性 能 概括 )，394 
bitonic sorting network ( 双 调 排序 网 络 )，386, 416 
bitonic split〈 双 调 分 裂 )，384 
block mapping 〈 块 映射 ， 参 看 mapping ) 
block matrix operations { 块 矩 阵 运 算 }，346 
block-cyclic mapping (〈 块 循环 映射 ， 参 看 mapping ) 
bounded-degree network 〔〈 限 定 度 的 网 络 )，76 
BPC permutations (BPC 置 换 )，189 
BPRAM, 76 
branch prediction (分 支 预测 )，12, 16 
branch-and-bound search (分 支 定 界 搜索 )，473, 505， 
$07 
broadcast (广播 ， 参 看 one-to-all broadcast, all-to-all 
broadcast ) 
bubble sort ( 留 泡 排序 )，394 
odd-even transposition (奇偶 变换 )，395 
MPI Implementation ( MPI 实 现 )，249 
bucket sort ( 桶 排序 ) 
EREW PRAM, 418 
bus-based network (基于 总 线 的 网 络 )，33, 39 
butterfly network ( 蝶 形 网 络 ， 参 看 multistage network ) 
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cache (向 速 组 在) 
hit ratio (命中 率 )}，17 
impact on memory system performance ( 对 内 存 系统 
性 能 的 影响 )，18 
temporal locality (时 间 本 地 性 )，18 
cache coherence ( 高 速 缓存 -化 性 ) ，29, 45 
directory-based systems (基于 目录 的 系统 }，51 
cost of (成 本 )，52 
performance of (性 能 )，51 
dirty ( 脏 )，48 
distributed directory systems (分 布 式 目录 系统 )，53 
performance of (性 能 )，53 
example protocol (例子 协议 )，48 
false sharing ( 假 共 享 )， 47 | 
invalidate protocol (无 效 协议 }，47, 48 
shared ( 共享 的 )，48 
snoopy systems (〈 侦 听 系统 )，49 
performance of (性 能 )，49 
update protocol (更 新 协议 )，47 
channel bandwidth (通道 带宽 )，43 
channel rate (通道 速度 )，43 
channel width (道道 宽度 ， 参 看 channel] bandwidth ) 
Cholesky factorization (Chojesky 因 式 分 解 )，369. 372， 
374, 375 
circular shift (循环 移 位 )，179, 187, 193, 349 
on hypercube (在 超 立 方 体 上 )，181, 184 
on linear array (在 线性 阵列 中 )，179 
on mesh (在 格 网 上 )，181 
closed list ( 封 也 表 )，478 
columnsort 〈 列 排序 ) ，418 
combinatorial problem (组 合 问 题 )，469 
combining (结合 )，75 
communication cpsts (通信 成 本 )，53 
message passing (消息 传递 )，53 
simplified model ( 简化 模型 )，58 
shared-address-space (共享 地 址 空间 )，61 
communication latency (通信 延迟 ) 
for cut-through routing ( 直通 路 由 选择 )，57 
for packet routing ( 报 文 路 由 选择 )，56 
for store-and-forward routing (存储 转发 路 由 选择 )，54 
communication overhead (通信 开销 )，215 
comparator (比较 器 )，382, 384 
decreasing (减少 )，382, 385 
increasing (增加 )，382, 385 
compare-exchange operation (比较 交换 操作 )，379, 381， 
383, 387, 394 
compare-split operation (比较 分 裂 操 作 )，381, 392, 417 


comparison-based sorting (基于 比较 的 排序 )})，379 
complete graph (完全 图 )、430 
completely-connected network (全 连接 网 络 )，39, 44 
composite synchronization constructs (复合 同步 构造 )， 
302 
composition function (组 合 图 数 )，516 
concatenation (连接 ， 参 看 gather) 
concurrency ( 并发， 参看 degree of concurrency ) 
condition (条 件 ) 
wait { 等待)，295 
condition signal (条 件 信号 )，295 
condition variables (条 件 变 量 )，294 
broadcast ( 广播)，298 
destroy (清除 )，296 
initialization (初始 化 )，296 
timed wait {定时 等 待 )，298 
congestion (拥塞 ， 参 看 embedding }，154, 165, 177 
connected components (连通 分 量 )，446, 464 
1-D block mapping (1 维 块 映射 )，449 
parallel formulation (并 行 公 式 )，447 
Sollin”s algorithm (Sollin 算 法 ), 464 
using depth first search (使 用 深度 优先 搜索 )}，446 
connected graph (连通 图 )，432 
connectivity matrix (连通 性 和 佐 阵 )，445 
connectivity, interconnection networks (连通 性 ， 互 连 网 
络 )，43 
control structure (控制 结构 )，25 
copyin clause in OpenMP (OpenMP 中 的 复制 子 句 )，328 
cost (成 本 )，203 


73 
cost optimality (成 本 最 优 性 )，204，205，208，212， 
219, 220 
relationship with isoefficiency function (与 等 效率 隔 
数 的 关系 )，217 
critical directive in OpenMP (OpenMP 中 的 关键 命令 )， 
323 
critical path (关键 路 径 )，90 
jength of (长 度 )，91 
critical section (交界 段 )，288 
cross-section bandwidth (截面 带宽 ) ，44 
crossbar network (交叉 开关 了 网络 )，35, 39 
cut-through routing (直通 路 由 选择 )，$6-$7, 188 
deadlocks ( 死 锁 )，S8 
message transfer time (消息 传递 时 间 )}，57 
survey of techniques (技术 调查 )}，75 
virtual cut-through (虚拟 直通 )，75 
cutoff depth (截止 深度 )}，483 





422 


cycle ( 循 坏 )，430 
simple (简单 的 )，430 
with negative weight ( 含 负 权 )，438, 463 
without negative weight (不 含 负 权 )，438 
cyclic mapping 〈 循 坏 映 射 ， 参 看 mapping ) 


DAG (参看 directed acyclic graph ) 
data parallelism {数据 并 行 }，139 
data partitioning (数据 划分 ， 参 看 partitioning ) 
data-decomposition (数据 分 解 ， 参 看 decomposition ) 
data-flow computing (数据 流 计 算 )，9 
data-parailel programming (数据 并 行 编程 )，9, 27. 189 
Davis-Putnam algorithm (Davis-Putnam 算 法 )，492 
decejeration anomalies (减速 异常 )，502 
decomposition (分 解 )，86 
coarse-grained ( 粗 颗 粒 的 )，89 
data {数据 )，97-105 
”exploratory (探索 )，105-107 
fine-grained ( 细 侨 粒 的 )，89 
hybrid (混合 】)，109-110 
recursive 递归 )，95S-97 
speculative (推测 性 的 )，107-109 
default clause in OpenMP (OpenMP 中 的 默认 子 句 )， 
314 
degree of concurrency (并 发 度 )，89, 218, 221 
average (平均 值 )，90 
maximum (最 大 值 )，950 
dense graphs ( 稠密 图 )，431, 438 
dependency (相关 性 ) 
branch (分 支 )，15 
data (数据 )，14 
procedural ( 过程 的 )，15 
resource (资源 )，14 
depth-first branch-and-bound (深度 优先 分 支 定 界 )，475 
depth-first search (深度 优先 搜索 )，228, 474 
load balancing ( 负载 平和 本) ，484 
asynchronous round robin ( 异步 循环 法 )，484 
global round robin (全 局 循环 法 )，485 
random polling (随机 轮 询 )，485 
receiver-initiated (接收 启动 的 )，505 
sender-initiated (发 送 方 启动 的 )，505 
Parallel (并 行 )，480-496 
acceleration anomalies ( 加速 异常 )，502 
deceleration anomalies (减速 异常 )，502 
storage requirement (存储 项 求 ) ，477 
deterministic routing (确定 性 路 由 选择 ， 参看 routing 
mechaitism ) 
DFT (参看 discrete Fourier transform ) 
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diameter of interconnection networks ( 末 连 网 络 的 直径 )， 
43 
diiation 《( 脱 胀 度 ， 和 参看 embedding ) 
dimension-ordered routing ( 维 序 路 由 选择 ， 参 看 routing 
mechanism ) 
direct interconnection networks {直接 互连网 络 ， 参 看 
interconnection networks ) 
directed acyclic graph ( 有 问 无 圈 图 ) ，229 
model of computation (计算 模型 ) ，229 
directed graph (有 向 图 }，429 
directory-based systems (基于 目录 的 系统 )，51 
cost of (成 本 )，52 
performance of (性 能 }，51 
presence bits (存在 位 )，5] 
discrete Fourier transform (离散 健 立 叶 变 换 )，538 
discrete optimization problem (DOP， 离 散 优 化 问题 )， 
469 
multiknapsack (多 背包 )，508 
quadratic-assignment (二 次 分 配 )，508 
robot motion planning (机 器 人 动作 规划 )，473 
speech understanding ( 诸 音 理解 )，473 
VLSI floor-plan optimization (VLSI 芯片 布置 图 优化 )， 
473 
disjoint set (不 相交 集 )，447 
path compression (路 径 压缩 ) ，449 
ranking (等 级 ), 449 
distributed directory systems (分 布 式 目录 系统 )}，53 
performance of (性 能 )，53 
distributed memory computer (分 布 式 内 存 计算 机 )，29 
distributed platforms (分 布 式 平台 ), 4 
distributed tree search (分 布 式 树 搜索 )，513 
divide and conquer (分 冶 )，96 
donor Processor 和) 482 
dual ( 对 偶 )， 
of all-to-all broadcast (多 对 多 广 播 )， 
of all-to-all reduction (多 对 多 妇 约 i 
of all-to-one reduction (多 对 一 让 约 ) 149 
of gather (收集 )，169 
of one-to-all broadcast (一 对 多 广播 )， 
of scatter (散发 )，169 
dynamic instruction issue (动态 指令 发 送 )，15 
dynamic interconnection networks (动态 互连网 络 ， 参 看 
interconnection networks ) 
dynamic load balancing (动态 负载 平衡 )，481 
donor processor (施主 处 理 器 )，482 
recipient processor (接受 者 处 理 器 )，482 
dynamic programming (动态 规划 )，505, 515 
algorithms (算法 ) 


149, 156 
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” 0/knapsack (0/1 背包 问题 )，520 

Floyd's all-pair shortest-paths (Fioyd 全 部 顶点 对 间 
的 最 短 跳 径 )，526 

longest-common-subsequence (最 长 公共 子 序列 )，523 

optimal-matrix-parenthesization (最 优 第 阵 带 括号 方 
法 )，527 

shortest-path (最 短路 径 )，5$15 

classification ( 分 类 ) 
monadic ( 一 元 的 )，S$17 
nonserial ( 非 串 行 的 )，5$17 
nonseriaj-monadic ( 非 串 行 一 元 的 )，517, $23-526 
nonserial-polyadic ( 非 串 行 多 元 的 )，517, 527-530 
polyadic ( 多 元 的 )，517 
serial {上 拒 行 )，517 
seriaj-monadic ( 申 行 一 元 )，517, 518-523 
serial-polyadic ( 捉 行 多 元 )，517, 526-527 

composition function (组 合 国 数 )，5$16 

functional equation ( 谤 东方 程 )，S16 

optimization equation (优化 方程 )，516 

recursive equation (递归 方程 )，$16 

dynamic scheduling in OpenMP (OpenMP 中 的 动态 调 
度 )，317 


E-cube routing (立方 体 路 由 选择 ， 参 看 routing 
mechanism ) ，177, 189 
edge ( 边 )，429 
incident from ( 关联 来 自 )，429 
incident on ( 关 腾 )，429 
incident to (关联 到 )，429 
efficiency (效率 )，202, 210, 211 
embedding (相信 ),，66 
congestion of ( 拥 察 )，66,75. 82 
dilation of ( 膨胀 )，67, 75 
expansion of (扩充 )，67. 75 
hypercube into mesh ( 超 立方 体 到 格 网 )，71 
interconnection network design (互连网 络 设计 )，72 
linear array into hypercube (线性 阵列 到 超 立 方 体 )， 
67, 68 
mesh into hypercube ( 格 网 到 起 立方 体 )，67, 69 
mesh into linear array ( 格 网 到 线性 阵列 )，69 
enumeration Sort ( 榴 举 排序 )，414 
equivalence class ( 等 价 类 )，446 
execution time (执行 时 间 ， 参 看 parallel runtime )，197 
expansion (扩充 ， 参看 embedding)，67 
exploratory decomposition (探测 性 分 解 ， 参 看 
decomposition ) ，105 
exponential function (指数 函数 )，S65 
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false sharing ( 假 共 享 )，47, 285 
fast Fourier transform (快速 傅 立 时 变换 )，5S37 
binary-exchange algorithm ( 二 元 交换 算 靶 ) ，$41， 
556, 560 z 
extra computations (额外 计算 }，551 
higher radix 《更 高 的 基数 )，562 
on linear array, ring (在 线性 阵列 中 )，562,，563 
on mesh (在 格 网 中 )，562 
ordered {有 序 的 )，561 
serial algorithm (上 串 行 算法 ) 
iterative ( 迹 代 的 )，540, 542 
recursive (递归 徇 )，538, 539 
transpose algorithm ( 转 置 算 法 )，553 
generalized (广义 的 )，$59 
three-dimensional ( 3 维 的 )，S$S7，S$S$9，560 
two-dimensional (2 维 的 )，553, 554, 556，560 
fat tree ( 胖 树 )，42,75 
feasible solutions ( 可行 解 集合 }，469 
fetch-and-add operation ( 取 数 和 相 加 操作 )，510 
fetch-and-op ( 取 数 并 操作 )，189 
FFT (参看 fast Fourier transform ) 
firstprivate clause in OpenMP (OpenMP 中 的 firstprivate 
子 句 )，315 
flit (数据 片 )，56 
flow control digit ( 流 控制 数字 )，56 
flush directive in OpenMP (OpenMP 中 的 flush 命 令 )，326 
for directive (for 命 令 )，315 
forest (树林 )，430, 446 
Fujitsu VPP 500 (参看 VPP500) 
function (函数 ) 
exponential (指数 的 ， 参 看 exponential function ) 
logarithmic ( 对 数 的 ， 参 看 logarithmic function ) 
polynomial (多项式 的 ， 参 看 polynomial function ) 
functional equation ( 廊 国 方程 )，516 


gather ( 收集 )，167, 187, 192 
dual of (… 的 对 得)，( 参 在 dual) 

Gaussian elimination (高 斯 消 元 法 )，353-369 
column-oriented (面向 列 的 )，371 
dense (稠密 的 ) 
with pipelining (用 流水 线 )，165 
numerical considerations (数值 考 虚 ) ，370 
row-oriented (面向 行 的 )，370 
with block 1-D mapping (用 块 1 维 映射 )，355, 367 
with block 2-D mapping (用 块 2 维 映 射 )，361, 368 
with cyclic 1-D mapping (用 循环 1 维 映 射 )，361 
with cyclic 2-D mapping (用 衡 坏 2 维 映射 )，365 
with partial pivoting (用 部 分 选 主 元 法 )，366 
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with pipelining (用 流水 线 )，357,，362, 367，368 
2lobal minimum (全 局 最 小 值 )，435 
granularity (粒度 )，89 
of computation ( 计算 )，205 
effect on performance (对 性 能 的 影响 )，205 
of processors 【处 理 问 )，205 
graph partitioning (图 划分 )，124 
graphs (图 ). 429, 462 
acyclic (无 圈 的 )，430 
adjacent vertex ( 相 邻 硕 点 )，429 
algorithms ( 算 社 )，462 
articulation points (关节 点 )，465 
bipartite (双向 的 )，465 
bridges ( 桥 )，465 
complete (完全 的 )，430 
cycle ( 圈 )，、430 
cyclic index (循环 索引 )，465 
definition (定义 )，429 
dense (向 密 的 )，431 438 
directed ( 有 癌 的 )，429 
forest {树林 )，430 
independent set (独立 集 )，451 
maximal independent set (最 大 独立 集 )，451 
path 《路 径 )，429 
representation (表示 )，430, 431, 451 
adjacency list ( 邻接 表 )}，431 
adjacency matrix (邻接 年 阵 ) ，430 
relative merits (和 优 缺点 )，432 
welghted adjacency jist (加 权 邻 接 表 )，431 
weighted adjacency matrix (加 权 邻 接 年 阵 )， 431 
sparse 【稀疏 的 )，431 
state-space (状态 空间 }，471 
subgraph ( 子 图 }，430 
transitive closure (传递 闭 包 )，445 
tree ( 树 )，430 
undirected (无 向 的 )，429 
connected (连通 的 )，430 
weighted (加权 的 ) ，430 
Gray code ( 葛 莱 码 )，67，68，69,， 75，181 
greedy algorithm ( 贪 焚 算法 )，432, 436 
grid graphs (网 格 图 )，451, 451, 458-462 
guided scheduling in OpenMP (OpenMP 中 的 导向 调度 )， 
318 


Hamming distance (Hamming 距离 )，177 
harmonic mean (调和 平均 值 )，504 

hash function ( 散 列 蚂 数 )，500 

heuristic estimate ( 启发 式 估计 )，473 


heuristic search (局 发 式 搜 索 ) ，473，505 
admissible heuristic (允许 启发 式 )，473 

hit ratio (命中 率 ， 参 看 cache ) 

hypercube network ( 超 立方 体 网 络 )，39，44，82 
properties ( 属性 )，40, 79 

hyperquicksort ( 超 快速 排序 }，418 


IBM SP, 30 
if clause in OpenMP (OpenMP 中 的 it 子 句 )，312 
in-order execution ( 依 序 执行 )，15 
incident edge (关联 边 ) 
directed graph (有 问 图 )，429 
undirected graph (无 向 图 )，429 
indirect interconnection networks (无 向 互连网 络 ， 参 看 
interconnection networks ) 
induced subgraph (导出 子 图 )，430 
interconnection networks (互连网 络 )，32 
k-ary d-cube (上 元 d 立 方 体 )，39 
blocking (阻塞 )，35, 38 
buses (总 线 )，33 
completely connected (全 连接 的 )，39 
cost-performance tradeoffs (成 本 性 能 权衡 )，73 
crossbar (交叉 开关 )，35, 36 
direct (直接 )}，32 
dynamic (动态 )，32 
properties of (属性 )， 44-45 
hypercube 《 超 立 方 体 )，39 
indirect (间接 )，32 
Hinear array (线性 阵列 )，39 
mesh ( 格 和 网 }，39 
multistage (多 级 )，36 
network interface (网 络 接口 )，33 
static〈 静 态 的 )，32 
properties of ( 属性 ) ，43-44 
Switch {开关 )，32 
degree ( 度 )，32 
topoiogies (拓扑 结构 )，33 
trees ({ 树 )，42 
invalidate protocol (无 效 协 议 ， 参 看 cache coherence ) 
isoefficiency (等 效率 )，212 
analysis (分 析 )，212, 216 
function ( 霄 数 )， 212, 215, 220, 227 
lower bound (下 界 )，217 
relationship with concurrency ( 与 并 发 的 关系 )，218 
relationship with cost-optimality ( 与 最 优 成 本 的 关系 )， 
217 
Itanium ，12 
lterative deepening A* (和 迭代 加 深 A*)，475，506 





k-ary d-cube network (大 元 过 立方 体 网 络 )，44 

k-to-all broadcast (大 对 多 广播 )，192 

人 -to-all personalized communication (Kk 对 多 私自 通信 )， 
193 

keyed-scan ( 键 控 扫描}，189 


lastprivate clause in OpenMP (OpenMP 中 的 lastprivate 子 
人 门 ，315 
linear array ( 线性 阵列 ) ，44 
iinear function (线性 打数 ) ，$65 
link bandwidth ( 链 路 带宽 ) 
effective bandwidth (有 效 带 宽 )，60 
load balancing (负载 平衡 ) 
asynchronous round robin (异步 循环 )，484 
global round robin (全 局 循环 )，485 
global round robin with message combining ( 带 消 息 结 
” 合 的 爹 局 循环 )，510 
random polling 《随机 轮 询 )，485 
receiver initiated (〈 接 妆 者 启动 的 )，505 
sender-initiated, 505 
distributed tree search (分 布 式 树 搜索 )，505 
multi-level (多 层 )，505, 513 
single-level ( 单 层 }，505, 513 
load imbalance (人 负载 不 平衡 )，196 
load-balancing (负载 平衡 )，115S-132 
logarithmic function (对 数 消 数 )，566 
base of ( 底 ), 566 
loop interchanging (循环 交换 )，20 
loop unrolling ( 循环 跳出 )，16 
LPRAM, 76 
LU factorization (LU 因子 分 解 ) (参看 Gaussian 
elimination ) ，120，35$3, 354, 366, 370, 372 
column-oriented (面向 列 的 )，120 
Luby algorithm (Luby 算 法 )，45S3 
Parallel formulation ( 并行 形 式 )，453 


Manhattan distance ( 曼 哈 坦 距 离 )、473 
mapping (映射 )，93 
block ( 块 )，117 
bjock-cyclic ( 块 循环 }，122 
dynamic ( 动态 的 )，117, 130-132 
for load-balancing (负载 平衡 )，115 
one-dimensional (1 维 的 )，118 
randomized block (随机 块 )，124 
static (静态 的 )，116-130 
two-dimensional (2 维 的 )，118 
master directive in OpenMP (OpenMP 中 的 master 命 令 )， 
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323 
matrix multiplication (年 阵 相 乘 )，98, 102，345-352， 
371 
Cannon's algorithm (Cannon 算 法 )，347-349 
MPI implementation (MPI 实 现 ) ，253, 259 
DNS algorithm (DNS 算法 )，349-352, 373 
simple aljgorithm (简单 算法 )，346-347 
Strassen”s algorithm (Strassen 算 法 )，345，373 
matrix transposition (和 矩阵 转 置 )，171, 371 
in FFT (在 FFT 中 )，553,559 
matrix-vector multiplication 《和 扎 阵 -向 量 相 乘 )，15S1， 
519 本 
dense ( 稠密 的 )，86, 93, 337-345 
isoefficiency analysis ( 等 效率 分 析 )， 340，343 
MPI implementation ( MPI 实现)，266, 274 
with 1-D mapping (用 1 维 映射 )，338 
with 2-D mapping (用 2 维 映射 )，341 
sparse ( 稀 玖 的 )，92 
maximal ihdependent set (最 大 独立 集 )，453 
Luby algorithm (Luby 算 法 )，453 
paraljel formulation (并行 形式 )，453 
memory bandwidth (内 存 带 宽 )，18 : 
example (例子 )，18 
memory latency (内 存 延 迟 ) 
role of caches (高 速 缓存 的 作用 )，17 
memory system (内 存 系 统 ) 
bandwidth (和 带宽)，16 
impact of bandwidth (带宽 的 影响 )，18 
impact of strided access ( 跨 距 访问 的 影响 )，20 
jatency (延迟 )，16 
limitations of { 局限)，16 
spatial locality (空间 本 地 性 )，19 
memory-constrained scaling (内 存 受 限 的 扩展 ， 参 看 
scaling ) 
merge sort (合并 排序 ) 
EREW PRAM, 418 
mesh network (〈 格 网 网 络 )，39, 44 
of trees ( 树 的 )，80, 81 
pyramidal (金字 塔 的 )，81 
reconfigurable (可 重 构 的 )，74, 80 
message passiag (消息 传递 )，30 
message-passing programming ( 消息 传递 编程 )，233 
asynchronous ( 异步)，234 
deadlocks ( 死 锁 )，237, 239 
loosely synchronous (松散 同步 )，234 
MPI, 240 
operations (操作 ) 
bjocking receive (阻塞 式 接收 )，236 
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blocking send (阻塞 式 发 送 )，236 
buffered receive (有 组 证 接收 )，237 
buffered send ( 有 缓冲 发 送 )， 237 
non-blocking receive (无 阻塞 式 接 收 )，239 
non-blocking send 〈 无 阻 寒 式 发 送 )，239 
non-buffered receive (无 缓冲 接收 )，236 
non-buffered send ( 无 缓冲 发 送 )，236 
receive (接收 )，235 
send (发 送 )，235 
principles (原理)，233 
SPMD model (SPMD 模 型 )，234 
microprocessor architectures ( 微 处 理 器 体系 结构 )}，12 
MIMD (参看 multiple instruction stream multiple data 
stream ), 26, 74, 506 
minimal routing (最 小 路 由 选择 ， 参 看 routing 
mechanism ) 
minimum cost-optimal execution time (最 小 成 本 最 优 执 
行 时 间 )，218 
minimum execution time (最 小 执行 时 间 )，218 
minimum spanning tree (最 小 生成 树 )，432 
Kruskal”s algorithm (Kruskal 算 法 )，463 
Prim”s algorithm (Prim 算 法 )，432, 463 
for sparse graphs ( 用 于 稀疏 图 )，451 
shared-address-space (共享 地 址 空间 ) ，463 
Sollin”s algorithm (Sollin 算 法 )，463, 467 
CRCW PRAM ，463 
CREW PRAM，463 
mesh of trees ( 树 格 网 )，463 ， 
ring ( 坏 )，463 
minimum-congestion mapping (最 小 拥 宕 映射 )，82 
MIPS, 12 
MISD( 参 看 multiple instruction stream, single data 
stream), 74 、 
module paralle} computer (模块 并 行 计算 机 )，75 
Moore”s Law (摩尔 定律 ), 2 
motion planning (动作 规划 )，473 
MPC (参看 module parallel computer)，75 
MPI, 240 
concepts (概念 ) 
avoiding deadiocks ( 避免 死 锁 )， 246, 257 
Cartesian topologies (向 卡 儿 拓 提 结构 )，252 
collective communication operations ( 京 合 通信 操 
作 )，260 
communicators (通信 器)，243, 272 
embeddings ( 筷 人 )，251 
groups (组 )， 272 
overlapping communication with computation ( 计 


算 与 通信 重 符 ) ， 255 


过 3 


topologies {拓扑 结构 )，251 
examples (例子 ) 
Cannon”s algorithm (Cannon 算 法 )，254 
Dijkstra” s single-source shortest-path (Dijkstra 单 
源 最 短路 径 算法 )，268 
matrix-vector multiplication (和 矩阵 - 回 量 相 乘 )， 
200.274 
odd-even sort (奇偶 排序 )， 249 
sample sort (样本 排序 )， 270 
operations (操作 ) 
ail-to-ai (多 对 多 )，265 
barrier (障碍 )，260 
broadcast (广播 )，261 
collective (聚合 )，260 
create Cartesian topologies (创建 第 卡 儿 拓 站 结构 )， 
252 
gather (收集 }，263 
non-blocking send and receive (无 阻塞 发 送 与 接 
收 )，256 
prefix sum (前 组 和 )，263 
querying Cartesian topologies (在 第 卡 儿 拓 扑 结 构 
中 查询 )，252 
querying non-blocking send and receive (无 阻塞 发 
送 和 接收 查询 )，256 
querying the communicator { 查询 通信 器 )，243 
reduction (上 归 约 )，261 和 
scatter ( 散发 》，264 
send and receive (发 送 与 楼 收 )，244, 248 
splitting a communicator (分 裂 通 信和 器 )，272 
sub-dividing Cartesian topologies ( 细 分 第 卡 儿 拓扑 
结构 )，273 
MPI_Aligather, 264 
MPI_Allgatherv, 264 
MPI_Allreduce, 263 
MPI_Alltoall, 265 
MPI_ Alltoally, 266 
MPI. Barrier, 260 
MPI_Bcast，261 
MPI]_Cart coord, 253 
MPI_Cart_create，252 
MPI_ Cart rank, 253 
MPI_ Cart_shift, 253 
MPI Cart_sub, 273 
MPI_ Comm rank, 243 
MPI Comm_size, 243 
MPI_Comm_split, 272 
MPI COMM_ WORLD, 243 
MPI_ Finalize, 242 
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MP] Gather, 263 

MPI Gatherv, 264 
MPI_ Get _ count, 246 

MPI_ Init, 242 

MPI. [recyv, 256 

MPI_Isend, 256 
MPI_PROC_NULL, 253 

MPI Recv, 244 

MPI_Reduce, 261 
MPI_Request_free, 257 
MPI_Scan, 263 

MPI_sScatter, 264 

MPI_ Scatterv, 265 

MPI_Send, 244 

MPI_Sendrecy, 248 
MPI_Sendrecv_replace, 248 
MPI Status, 245 
MPI_SUCCESS, 242 

MPI Test, 256 

MPI_Wait, 256 

multi-prefix (多 前 缀 )，189 
mujltiknapsack (多 背包 )，508 
mujtilevel work-distribution (多 层 任 务 分 配 )，505, 513 
multiple instruction stream, multiple data stream (多 指令 


流 ， 多 数据 流 )，26, 74, 506 


multiple instruction stream, single data stream ( 多 指令 流 ， 


单数 据 流 )，74 
mujtistage network (多 级 网 络 }，36 
butterfly ( 媒 形 )，78, 79 
omega, 36,37,78 
blocking nature of ( 阻塞 特性 )，38 
perfect shuffle (完全 混 洗 )，36 
multithreading { 多 线程 ) 
impact on bandwidth (对 带宽 的 影响 )，23 
mutex (万 斥 锁 ) 
alleviating overheads (减少 开销 )，292 
errorcheck (错误 检查 )，300 
normal ( 正常 的 )，300 
Overheads of serialization ( 串 行 化 开销 )， 292 
recursive (递归 和 的 }，300 
mutex-unlock ( 互 斥 锁 解 锁 )，288 
mutual exclusion (相互 排斥 )，287 


negative-weight cycles ( 负 权 圈 )，463 

network topologies (网络 拓扑 结构 )，33 

node jatency ( 节点 延迟 ， 参 看 per-hop time ) 

node spljitting (此 点 分 烈 )，505 

non-minimal routing ( 非 基 小 路 由 选择 ， 参看 routing 


mechanism ) 
non-uniform memory access ( 非 一 竹内 存 访 问 )，27 
noncomparison-based sorting (基于 非 比 较 的 排序 )，379 
nonterminal nodes ( 非 终 端 节点 )，471 
nowait clause in OpenMP (OpenMP 中 的 nowait 子 句 )，319 
NP-hard (NP 难 问题 )，473 
num_threads clause in OpenMP (OpenMP 中 的 
num_threads 子 句 )，312 
NUMA (参看 non-uniform memory access ) 


odd-even sort (奇偶 排序 )，416 
odd-even transposition sort ( 奇偶 转换 排序 )，417 
in shellsort (在 希 尔 排序 中 )，398 
scalability (可 扩展 性 )，398 
omega network (omega 网 络 , 参看 multistage network ) 
2 notation {人 符号 }，567 
omp for, 315 
omp parallel, 312 
omp_destroy_lock, 330 
omp_destroy_nest_lock, 330 
OMP_DYNAMIC, 331 
omp_get_dynamic, 329 
omp_get_max. threads, 329 
omp_get_nested, 329 
omp_get_num_procs, 329 
omp._get_num._ threads, 329 
omp_get_thread _ num, 329 
omp_init_lock, 330 
omp_init_nest_lock, 330 
OMP_NESTED, 322, 331 
OMP_NUM_THREADS, 330 
OMP_SCHEDULE, 33 1 
OMP_SET_DYNAMIC, 331 
omp_set_dynamic, 329 
omp_set_lock, 330 
omp_set_nest_ljock, 330 
omp. set_nested, 329 
omp_set_num_ threads, 329 
omp_test_lock, 330 
omp_test_nest_lock, 330 
omp_unset_lock, 330 
omp._unset_nest_lock, 330 
one-to-all broadcast (一 对 多 广播 )，149, 166，185， 187， 
341-343, 351, 352, 357, 361, 368, 435, 442 
dual of ( 对 偶 ) 
on balanced binary tree (在 平衡 二 叉 树 上 )，153 
on hypercube (在 超 立 方 体 中 )，153 
with ali-port communication (用 全 端口 通信 )，189 
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on linear array (在 线性 阵列 中 )，15S0 
on mesh (在 格 网 中 )}，152 
pipelining multiple broadcasts (流水 线 多 播 )，165， 
357 
pseudocode ( 伪 矶 )，156, 157 
one-to-all personalized communication (-- 对 多 私自 通 
人 i, 参看 Scatter ) 
Onotation (OQO 符 和 写 )}，567 
open list ( 开放 表 )，478 
OpenMP, 311 
atomic instructions (原子 指令 )，325 
barrier (障碍 )，322 
conditional paralletism (条 件 并 行 )，312 
critical sections (临界 段 )，323 
data handing (数据 处 理 )，312, 327 
defining paraliel regions (定义 并 行 区 域 ), .312 
dynamic control (动态 控制 ) 
number of threads ( 线程 数 )，329 
environment variables ( 环境 变量 )，330 
for loops _ (for 循环) 
scheduling ( 油 度 )，316 
jibrary functions ( 库 国 数 )，328 
jocal variable {局 部 变量 ) 
initialization ( 初始化)，314 
master block ( 主 块 )，323 
memory consistency (内 存 一 致 性 )，326 
merging directives (合并 命令 )，320 
mutual exclusion (相互 排斥 )，329 
nesting directives ( 侍 套 命令 )，321 
number of threads (线程 数 )，312, 328 
ordered execution ( 有 序 执 行 )，325 
programming model ( 编程 模型 ) ，312 
reduction ( 归 约 )》，314 
scheduling across for loops (跨越 for 循 环 调 度 )，319 
single block (单个 块 )，323 
spjitting for joops (分 裂 for 循 环 )，315 
synchronization (同步 )，322 
task parallelism (任务 并 行 化 )，319 
optimal matrix parenthesization (最 优 矩 阵 带 括号 方法 )， 
527 
optimization equation {优化 上 方程)，516 
ordered directive in OpenMP( OpenMP 中 的 ordered 命 令 )， 
325 
out-of-order execution { 乱 序 执行 }，15 
overhead ( 开销 )，115 
methods to reduce ( 归 约 方法 )，132 
overhead function 《开销 国 数 )， 197,， 215, 217, 227， 


228, 231 
sources of ( 源 )} 
extra computations ( 额外 计算 )，196 
interprocessor communication (处 理 器 间 通 信 )，196 
load imbalance ( 负载 不 平衡 )，196 
processor idling (处 理 器 空 辣 )，196 
owncr-computes rule ( 据 有 者 计算 规则 )，103 


packet routing ( 包 路 由 选择 )，54 
message transfer time (消息 传送 时 间 )，56 
packing ( 包 )，189 
parallel best-first search (并 行 最 佳 优 先 搜 索 }，496 
parajlel computing (并 行 计 算 ) 
books ( 书 )，8 
conferences (天 看 文献 )，9 
journals ( 期刊)，9 
parallel depth-first search (并 行 这 度 优先 搜索 ) 
analysis (分 析 )，488, 485-495 
assumptions (假设 )，486 
contention ( 争 用 ) 
in accessing global variables ( 访问 全 局 变量 )，489 
depth-first branch-and-bound (深度 优先 分 支 定 界 )，495 
iterative deepening A* ( 桥 代 加 深 A*)，496 
termination detection (终止 检测 )，490 
Dijkstra”s token algorithm (Dijkstra 令 牌 算法 )，490 
tree-based algorithm (基于 树 的 算法 )，491 
parallel efficiency (并 行 效率 ， 参 看 efficiency ) 
paraljel efficient problems ( 并行 效率 问题 ) ，227 
paralljel platforms ( 并行 平 台 ) 
communication costs (通信 成 本 }，53 
message passing ( 宵 息 传递 )，53 
shared-address-space (共享 地 址 空间 )，61 
control structure (控制 结构 )，25 
dichotomy of (二 分 法 )，24 
interconnection networks (互连网 络 )，32 
logical organization 《逻辑 组 织 )，24 
physical organization (物理 组 织 )，24, 31 
Parallel processes (并 行进 程 )，93 
Versus processors (与 处 理 器 比较 )，94 
parallei random access machine ( 并行 随机 访问 计算 机 )， 
9,31-32,75,76, 227 
BPRAM, 76 
concurrent write ( 并 发 写 ) 
arbitrary (〈( 任 前)，31 
common (普通 )，31 
priority (优先 级 )，31 
sum { 求 和 )}，32 
CRCW ，31 
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索 3 

CREW , 31 Power4, 12 

ERCW, 31 prefetching ( 预 取 )，23 

EREW ，31, 32 example (例子 )，23 

LPRAM, 76 prefix sums (前 缀 和 )}，167, 189, 191, 231 


paraljel runtime ( 并行 运行 时 间 }，197 
cost-optimal (成 本 最 优 的 )，219 
minimum (最 小 的 )，219 
parallel speedup 《并 行 加 速 比 ， 参 看 speedup ) 
parallel system ( 并 行 系统 )，195 
scajabie (可 扩展 的 )，211,214.215, 226 
ideally scalabie (理想 可 扩展 的 )，217 
unscalabie (不 可 扩展 的 )，215 
paraljel tasks ( 并 行 任 务 )，86 
characteristics of (特点 )，110-112 
paralielism (并 行 化 ) 
implicit ( 隐 式 )，12 
partial pivoting ( 部 分 选 主 元 著 ) ，366 
with 1-D mapping (1 维 映 射 )，367 
with 2-D mapping 〈2 维 庙 射 )，368 
partitioning (划分 )，98 
input data (输入 数据 )}，101 
intermediate data (中 间 数 据 )，101 
output data (输出 数据 )，98 
path (路 径 )，429 
cycie(〈( 圈 )，430 
shortest (最短 的 )，436 
Simple (简单 的 )，429 
single-source shortest paths ( 单 源 最 短路 径 )，436 
weight of ( 权 )，430 
PC* class of problems (PC* 类 问题 )，227 
PE problems (PE 问题 ， 参 看 parallel efficient problems ) 
Pentium ( 奔 采 处理 器}，12 
Streaming SIMD Extensions (SIMD 流 扩充 )，25 
per-hop time (每 站 时 间 )，5S$4 
per-word transfer time ( 每 字 传送 了 时间)，5$4 
perfect shuffle (完全 混 洗 ) ，36 
permutation communication operation ( 置换 通信 操作 )， 
179, 189 
permutations (置换 )，189 
pipelining (流水 线 )，12, 141 
pivoting ( 选 主 元 ， 参 看 partial pivoting ) 
pointer jumping (指针 跳 转 )，189 
Poisson equation ( 铂 松 方程 )，561] 
polynomial function ( 多项式 国 数 )，5$65 
degree of (次 )，565 
linear {线性 和 的 )，565 
positive definite matrix (正定 矩阵 )，369 
POSIX threads (POSIX 线 程 )，282 


pseudocode ( 伪 码 )，168 
priority gueue (优先 队列 ) 
in Johnson”s ajgorithm (在 Johnson 算 法 中 )，455 
private clause in OpenMP (OpenMP 中 的 private 子 名 ) ， 
315 
problem size (问题 规模 )，213, 226 
process mapping ( 进程 映射 ) 
impact of ( 影 啊 ) ，65 
processor-time product ( 处 理 器 -时 间 屁 积 ， 参 看 cost) 
producer-consumer (生产 者 - 销 费 者 ) ，290 
Using condition variables (使 用 条 件 变 量 ) ， 296 
pthread_attr_destroy, 299, 301 
pthread_attr_init, 299 
pthread_attr_setdetachstate, 299 
pthread_attr_setguardsize_np, 299 
pthread_attr_setinheritsched, 299 
pthread_attr_setschedparam, 299 
pthread_attr_setschedpolicy, 299 
pthread_attr_setstacksize, 299 
pthread_cancel, 301 
pthread_cond_broadcast, 298 
pthread_cond_destroy, 296 
pthread_cond_init, 296 
pthread_cond._signal, 295 
pthread_cond timedwait, 298 
pthread_cond_ wait, 295 
pthread_create, 283 
pthread_join, 284 
pthread_mutex_init, 289 
pthread_mutex_lock, 288 
pthread_mutex_t, 288 
pthread_mutex_trylock, 292, 294 
pthread_mutex_unlock, 288 
pthread_mutexattr_init, 301 
pthread_mutexattr_settype_np, 301 
Pthreads, 282 


quadratic function (二 次 函数 .) ，S$65 
quadratic-assignment (二 次 分 配 )，508 
quicksort (快速 排序 )，96, 399 
constructed binary tree (结构 化 二 叉 树 )，402 
CRCW PRAM, 402 
divide-and-conguer (分 治 )，399, 401 
pivot ( 主 元 )，400 





430 


”Selection schemes (选择 方案 )，401, 417 
radix sort (基数 排序 )，415 
randomized routing (随机 路 由 选择 )，5S9 
reachable vertices 《可 达 顶 点 )，429 
read-write locks ( 读 写 锁 )，302 
reconfigurable mesh ( 可 重 构 格 网 )，74, 80 
recursive decomposition (递归 分 解 ， 参 看 decomposition ) 
recursive doubling (递归 加 倍 )，149 
reduction (中 经] ) ，75 
alj-reduce (全 站 约 ) ,166, 185, 187, 189 
all-to-all (多 对 多 ) ,157, 187 
aij-to-alil reduction {多 对 多 归 约 ) ,191, 192 
all-to-one (多 对 一 ) ,149, 187, 192 
ali-to-one reduction (多 对 一 归 约 ) ,149, 166, 192 
dual of (… 的 对 偶 ， 参 看 dual ) 
reduction clause in OpenMP, 314 (OpenMP 中 的 reduction 
了 多 ) 
reentrant functions (可 重 入 函数 )，285 
RGC (参看 Gray code) 
ring network (环形 网 络 )，44 
routing mechanism (路 由 选择 机 制 )，63 
adaptive ( 自 适 应 的 )，64 
deterministic ( 人 确定 性 的 )，64 
dimension-ordered routing ( 维 序 路 由 选择 )，64 
E-cube routing (了 立方 体 路 由 选择 )，64 
minimal ( 上 最 小 值 )，63 
non-minimal ( 非 最 小 值 ) ，63 
XY-routing (XY 路 由 选择 )，64 
RP-.3, 560 
RTA (参看 recursive transposition algorithm ) 
runtime ( 运行 时 间 ， 参 看 paraliel runtime ) 
runtime schedujing in OpenMP ( OpenMP 中 的 运行 时 调 
度 )，318 


sample sort ( 样本 排序 )，412 
hypercube ( 超 立 方 体 )，4318 
MPI implementation (MPI 实 现 )，270 
sample selection (样本 选择 )，412 
splitters ( 分割 器 )，412 
Satisfiability problem ( 可 满足 性 问题 )，492 
scalability (可 扩展 性 )，208-218, 226, 227 
scalability metrics (可 扩展 性 度量 )，222 
scaled speedup ( 可 扩展 加 速 比 )，223 
memory-constrained (内 存 受 限 的 )，223 
time-constrained (时 间 受 限 的 )，223 
serial fraction (上 串 行 部 分 )}，225 
Scaled-speedup 〈 可 扩展 加 速 比 ， 参看 speedup, scaled ) 
scaling (扩展 )，205 
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time-constrained 《时 间 受 限 的 )，231, 376 

scan (扫描 ， 参 看 prefix sums ) 

scan vector model ( 扫 摘 向 量 模型 )，189 

scatter (和 散发 )，167,， 187 
dual of (… 的 对 偶 ， 参 看 dual ) 
on hypercube (在 超 立方 体 )，169 

with ali-port communication ( 全 端口 通信 )，189 

on linear array (在 线性 阵列 )，191 
on mesh (在 格 网 }，191 

schedule clause in OpenMP (OpenMP 中 的 schedule 子 句 )， 
315,316 

scientific computing (科学 计算 )，537 
books ( 书 )，9 

search overhead factor (搜索 开销 关子)，480 

sections directive in OpenMP (OpenMP 中 的 sections 命 
令 )，319 

selection (选择 )，189 

serializability ( 可 串 行 性 )， 287 

serializable schedule (〈 串 行 调度 ) ，46 

SGI Origin 2000, 27, 30 

shared address space (共享 地 址 空间 )，27 

shared clause in OpenMP (OpenMP 中 的 shared 子 名)， 
313 

shared-address-space architecture (共享 地 址 空间 结构 )， 
29 
in paraljel graph search (在 并 行 图 搜索 中 )，496, 498- 

500, 508 

shared-address-space programming (共享 地 址 空间 编程 ) 
directives (命令)，279 
jightweight processes ( 轻 最 级 进程 )，279 
processes (进程 )，279 
threads (线程 )，279 

shared-memory computer (共享 内 存 计 算 机 )，29 

shellsort {项 尔 排 序 )，398 
hypercube ( 超 立 方 体 )，417 
performance (性 能 )，399 

shortest path ( 最 短路 从)，436, 437 

SIMD (参看 single instruction stream, multiple data 
stream ) 

single directive in OpenMP (OQpenMP 中 的 single 子 句 )， 
323 

single instruction stream, multiple data stream ( 单 指令 流 ， 
多 数据 流 )，25, 26, 28, 74, S06 
advantages of (优点 )，26 
examples of (例子 )，75 

single instruction stream, singie data stream ( 单 指令 流 ， 
单数 据 流 )，74 z 

single-level work-distribution ( 单 野 任务 分 配 )，512, 
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513 
single-port communication ( 单 端口 通信 )，148，186， 
189 
singie-source shortest paths (单产 最 短路 征 )}，436, 455 
Bellman-Ford algorithm (Bellman-Ford 算 法 )，463 
Dijkstra”s algorithm (Dijkstra 算 法 )，436, 438, 463 
CRCW PRAM， 463 
EREW PRAM， 463 
MPI implementation (MPI 实 现 )，268 
for multistage graph ( 多 级 图 )，518 
Johnson's algorithm (johnson 算 法 )，455, 464 
using apriorinty queue (使 用 优先 队列 )，456 
using distributed queues (使 用 分 布 式 队列 )，458 
smoothsort ( 平 请 排序 ) 
hypercube ( 超 立 方 体 )，418 
snoopy cache systems ( 侦 听 高 速 缓存 系统 )，49 
performance of (性 能 )，49 
sorting 《排序 )，379 
comparison-based (基于 比较 的 )，379 
external 【外 部 的 )，379 
internal {内 部 的 )，379 
lower-bound (下 界 )，380 
noncomparison-based (基于 非 比较 的 )，379 
process enumeration (进程 枚 举 )，380 
stable (稳定 的 )，415 
sorting networks (排序 网 络 })，382, 384 
bitonic ( 双 调 )，384 
comparator (比较 器 )，380 
depth (深度 )，382, 386 
odd-even sort (奇偶 排序 )，416 
spanning binomial tree (生成 二 叉 树 )，189 
spanning forest (生成 树林 ) ，432, 446, 447, 449 
merging different forests (合并 不 同 的 树林 )，447 
spanning tree (生成 树 )，189, 432, 446, 447 
sparse graphs (稀疏 图 )，431,450-451 
examples (例子 )})，450 
grid graphs (网 格 图 )，451 
work imbalance (任务 不 平衡 )，451 
speculative decomposition ( 推 而 性 分 解 ， 参 看 
decomposition ) 
speculative execution { 推测 性 执行 )，16 
speech recognition (语音 识别 )，473 
speedup ( 加速 比 )，198, 198, 210 
scaled ( 可 扩展 的 )，230. 375 
superlinear ( 超 线 性 的 )，200. 228 
caches (高 速 缓存 )，200 
suboptimal serial algorithm (次 优 串 行 算法 )，201 
Speedup anomalies (加速 比 异 常 )，508 
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speedup anomalies in parallel search (并行 搜索 中 的 加 速 
比 异 常 )》，5S01-505 
acceleration anomalies (加速 异常 )，502 
analysis for DFS (DDFS 分析)，502 
assumptions (假设 )，503 
best-first search (最 佳 优 先 搜 索 )}，502 
deceleration anomalies (减速 异常 )，502 
SPMD, 234 
stack splitting (堆栈 分 割 ) ，482, 505 
star-connected network ( 星 形 连接 网 络 )，39 
startup time ( 启动 时 间 )，54 
state-space graph ( 状态 空间 图 )，471 
nonterminal node ( 非 终端 节点 )，471 
states (状态 )，471 
terminal node (终端 节点 )，471 
static interconnection networks (静态 互连网 络 ， 参 看 
interconnection networks ) 
store-and-forward routing (存储 转发 路 由 选择 )，54 
message transfer time (消息 传送 时 间 )，54 
subgraph ( 子 图 )，430 
Sun Ultra HPC, 27 
superlinear speedup ( 超 线性 加 速 比 )，228, 480 
superscalar execution (超标 量 执行 )，12 
example (例子 )，13 
symmetric matrix ( 对称 矩 阵 )，431 
synchronization (同步) 
removing it (消除 }，443 


tf (参看 per-hop time ) 
(参看 startup time ) 
ft。 (参看 per-word transfer time ) 
task parallelism (任务 并 行 化 )，140 
task-dependency graph (任务 依赖 图 }，86 
task-interaction graph (任务 交互 图 )，92 
tautology verification ( 重 言 式 验证 )}，506 
terminal node (终端 节点 )，471 
8 notation (日 符号 )，567 
thread (线程 )，280 
threadprivate directive in OpenMP (OpenMP 中 的 
threadprivate 命 令 )，328 
threads (线程 ) 
accessing shared data (访问 共享 数据 }，287 
advantages of (优点 )，281 
attributes ( 属性 ) ，298 
cancellation (取消 )，301 
creation (创建 )，282 
join (加 入 )，284 
latency hiding (延迟 隐藏)，281 
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jogical memory model ( 逻辑 肉 存 模型 )，280 
motivation for (动机 )，281 
mutex-locks (万 斥 锁 )，288 
muataal exclusion (相互 排 乓 )，287 
Portability ( of 移植 性 )，281 
reentrant functions ( 是 重 人 国 数 )，285 
scheduling and load balancing ( 调度 及 负载 平衡 )，281 
termination (终止 )，282, 284 
time 《 竺 问 ， 参 看 paraliel runtime ) 
time-constrained scaling 《时 间 受 限 的 扩展 ， 参 看 scaling ) 
total exchange (总 体 父 换 ， 参 看 ajl-to-all personalized 
communication ) 
transitive closure of a graph 《图 的 传递 闭 包 )，445 
transpose algorithm ( 转 置 算法 ， 参 看 fast Fourier 
transform ) 
tree ( 树 )，430, 446 
spanning (后 成 )，432 
tree network ( 树 形 网 络 }，42 
dynamic (动态 的 )，42 
fat tree ( 胖 树 ， 参 看 fat tree ) 
static 【静态 的 )，42 
tree search ( 树 搜 索 ) 
static allocation (静态 分 配 )，480 
trianeular matrix ( 一角 垂 阵 )，353, 369, 370 
triangular System (一 角 系 统 )，3S$3, 369, 370 
twiddte factors (旋转 因子 }，538, 551-552, 563 


UMA (参看 uniform memory access) 
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undirected graph (无 癌 图 )，429, 431, 432, 433 
connected (连通 的 )，430 
connected components (连通 分 其 )，446 
uniform memory access ( -一 化 内 存 访 问 )，27 
update protocol (更 新 协议 )，47 


vertex {顶点 )，429 
adjacent (邻接 的 )})，429 
connected (连通 的 )，445 
reachable ( 可 达 的 )，429 
vertex collapsing ( 顶点 压缩 )，464 
Very Long Instruction Word Processors ( 超 长 指令 字 处 理 
器 )，15 
VLIW (参看 Very Long Instruction Word Processors ) 
VLSI floor-plan optimization (VLSI 布置 图 优化 )，473 
VPP 500, 74 


wall-clock time (挂钟 时 间 }，195 
wave ( 波 ) 

spreading of computation (计算 的 扩散 )，461 
weighted adjaceacy matrix ( 加 权 邻 接 筷 阵 ) ，431 
weighted graphs (加权 图 )，430 
work-splitting (任务 分 割 ) 

cutoff depth ( 截 目 深度 )，483 

half-split (半分 割 )，482 

tree search 〈 树 形 搜索 ) ，482 


XY-routing (XY 路 由 选择 ， 参 看 routing mechanism ) 


